博客
关于我
用 SQL 查询 Git 仓库
阅读量:663 次
发布时间:2019-03-15

本文共 1001 字,大约阅读时间需要 3 分钟。

Git 已经成为了代码版本控制的事实标准,但尽管它广泛应用,对代码仓库的深入分析工作的难度却并没有因此降低。另一边,SQL 在大型代码库查询方面已经成为考验的语言,许多项目如 Spark 和 BigQuery 正是基于此选择它作为分析工具。或许源代码本身并不具备这种双重能力,因此我们开发出了 GitBase。

GitBase:代码即数据的见解

GitBase 是一个开源项目,它将代码作为数据处理的解决方案。它能够通过 SQL 对 Git 仓库进行大规模分析。作为一家开源公司,我们深知开源之力,GitBase 的发展完全依赖于其他开源项目的支持。这使得它具备了强大的技术基础。

这款工具为用户提供了一个可视化操作环境,使得复杂的数据分析变得直观易用。沟通方式更地,我们利用 Vitess 解析 SQL 请求。Vitess 是 YouTube 开发的横向扩展的 MySQL 集群系统,它为 GitBase 提供了坚实的基础。

在数据检索方面,我们选择了 go-git 这一纯 Go 语言开发的 Git 实现。它不仅高效,还具备极高的可扩展性。我们可以通过将本地存储的 Git 仓库转换为文件格式,或者使用 Git clone 的方式获取完整的代码库。

言外之意,我们重视代码历史分析能力,因此集成了 enry 这个语言检测项目以及 babelfish 的代码解析服务。不仅限于简单的语法检测,它还能够解析文件,生成通用抽象语法树。这些功能使得 GitBase 能够满足如“查找最常修改的函数名称”等复杂需求。

性能优化关键

在处理超大规模数据时,性能至关重要。以 GitHub 的 3 TB 高达源代码为例,我们确实面临着巨大的工作量,因此每个细节都需要优化。在构建 GitBase 时,我们引入了 Rubex 和 Pilosa。

Rubex 是 Go 标准库中替代正则表达式的高性能解决方案。其背景是 C代码优化,能够显著提升处理速度。Pilosa 则是我们为解决大型数据集查询速度问题而选择的分布式位图索引项目。结合两者,GitBase 实现了对大规模查询的支持。

开发总结

此文本始终站在开源项目的肩膀上,它凝聚了无数开发者的智慧。如你想尝试 GitBase ,从 sourced.tech/engine 下载即可。通过单一命令即可运行,简便又高效。若你对其功能感兴趣,可关注我的相关演讲内容。

转载地址:http://auxmz.baihongyu.com/

你可能感兴趣的文章
NIFI大数据进阶_外部ZK模式集群1_实际操作搭建NIFI外部ZK模式集群---大数据之Nifi工作笔记0017
查看>>
NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_操作方法说明_01---大数据之Nifi工作笔记0033
查看>>
NIFI大数据进阶_实时同步MySql的数据到Hive中去_可增量同步_实时监控MySql数据库变化_操作方法说明_02---大数据之Nifi工作笔记0034
查看>>
NIFI大数据进阶_离线同步MySql数据到HDFS_01_实际操作---大数据之Nifi工作笔记0029
查看>>
NIFI大数据进阶_离线同步MySql数据到HDFS_02_实际操作_splitjson处理器_puthdfs处理器_querydatabasetable处理器---大数据之Nifi工作笔记0030
查看>>
NIFI大数据进阶_离线同步MySql数据到HDFS_说明操作步骤---大数据之Nifi工作笔记0028
查看>>
NIFI大数据进阶_连接与关系_设置数据流负载均衡_设置背压_设置展现弯曲_介绍以及实际操作---大数据之Nifi工作笔记0027
查看>>
NIFI数据库同步_多表_特定表同时同步_实际操作_MySqlToMysql_可推广到其他数据库_Postgresql_Hbase_SqlServer等----大数据之Nifi工作笔记0053
查看>>
NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南001---大数据之Nifi工作笔记0068
查看>>
NIFI汉化_替换logo_二次开发_Idea编译NIFI最新源码_详细过程记录_全解析_Maven编译NIFI避坑指南002---大数据之Nifi工作笔记0069
查看>>
NIFI集群_内存溢出_CPU占用100%修复_GC overhead limit exceeded_NIFI: out of memory error ---大数据之Nifi工作笔记0017
查看>>
NIFI集群_队列Queue中数据无法清空_清除队列数据报错_无法删除queue_解决_集群中机器交替重启删除---大数据之Nifi工作笔记0061
查看>>
NIH发布包含10600张CT图像数据库 为AI算法测试铺路
查看>>
Nim教程【十二】
查看>>
Nim游戏
查看>>
NIO ByteBuffer实现原理
查看>>
Nio ByteBuffer组件读写指针切换原理与常用方法
查看>>
NIO Selector实现原理
查看>>
nio 中channel和buffer的基本使用
查看>>
NIO_通道之间传输数据
查看>>