放弃ElasticSearch,GitHub从零打造搜索引擎!2亿代码仓库怎么搜?( 三 )


在索引规模方面取得了一些突破,初始的内容量为115TB,删除重复内容、使用增量索引后将内容的数量减少到28TB左右 。
而索引本身只有25TB,其中不仅包括所有索引(含ngram),还包括所有唯一内容的压缩副本,这也意味着包括内容在内的总索引大小大约只有原始数据大小的四分之一!




推荐阅读