基于Python的全文检索引擎

基于Lucene基本原理来实现

分词采用jieba

文件

test.py 中有 test_index和test_search用来做索引和搜索测试

fts.index 这个文件记录了关键词和关键词对应的文档索引位置

文档索引是文档在 fts.doc中的区块索引，通过这个索引可以计算出数据块的准确位置

例如：文档索引=1

取文件指针开始和结束：

start = 1 - 1 * 4098

end = 1 * 4098

搜索原理：

通过上面这个步骤就可以完美的实现全文检索

例如索引的词是：

雷军向金山所有员工赠予每人600股的股票

分词的关键字有：雷军、金山....

然后我们搜索词是：

雷军是金山的的董事长吗？

这时候分词有3个关键字

雷军、金山、董事长

通过3个任意关键词就可以找到索引中的关键词，然后还可以根据击中次数得到分数score

最后根据score 排序

只有最基本的内存全文检索，没有排序、没有分页