最近学习了es的视频,感觉这个产品对于查询来说非常方便,但是如何应用到我们自己的 产品中来呢。因为我们的产品数据更新太快,其实不太适合用es做主力存储。并且我们的业务还没有到那种巨量级别,产品的服务器容量也有限,所以我打算根据es的倒排索引的原理,自己写一个查询的组件。
我的理解是这样的,有大量的文字需要进行模糊查询,在mysql中,如果使用like的话是非常合适的,目前我就是采用这种方式查询的,因为数据量还未到千万级别,速度也还行,不过马上要突破了,所以要考虑优化的事情了。所以我的思路是这样的:
1 首先将数据库中的大段文字和标题都提取出来。
2 这些文字都对应了主键。
3 使用jcseg分词将一段文字进行分词,然后将分好的词语主键保存到redis中去。
4 为了节省空间,只分重要的业务关键字,其他无关的分词都不需要。
5 因为数据量巨大,在进行数据提取的时候,采用了线程池,优化了采集速度。
使用的代码如下:
中文分词代码
1 本文提供了倒排索引的思路,比较浅显,还可以深入研究