【技术实现步骤摘要】
一种基于ES搜索的文本相似度排序方法
本专利技术属于大数据
,具体涉及一种基于ES搜索的文本相似度排序方法。
技术介绍
ES作为一个实时的分布式搜索和分析引擎,可以用于全文搜索,结构化搜索以及分析。其工作原理为在对文本建立索引的基础上,通过将查询文本进行分词,计算词在数据库文本中出现的频率,以及数据库文本中含有该词的文本数量,然后通过TF-IDF模型的计算公式计算出数据库中文本与查询文本的相似度值,根据相似度值降序快速返回搜索结果。由于ES的搜索速度快,所以其应用领域也在不断增多。但是,ES默认的评分规则采用了TF-IDF算法模型,该模型以词频作为文本相似度计算的基本单位,没有考虑词与词之间的位置顺序,导致搜索出的排序结果并不能满足需求,时常需要在原有排序的基础上结合应用场景,对评分进行二次打分与重新排序。比如,在相关度相差不大的情况下,词与词或者字与字之间的顺序越接近就应该越靠前等。此时就需要对搜索结果进行重新打分排序。例如:用户搜索”清理内存”,如果数据库中同时存在“清理内存”与“内存清理”两条数据,那么经过TF-IDF算法模型,计算出的“内存清理”的得 ...
【技术保护点】
一种基于ES搜索的文本相似度排序方法,其特征在于,包括以下步骤:a.ES初步搜索获得相似文本集合;b.进行文本分词,得到分词集合;c.以分词集合为基础,对分词后的文本进行向量化表示;d.通过余弦相似度度量文本向量之间相似程度;e.根据余弦相似度值,对文本进行相似度重排序。
【技术特征摘要】
1.一种基于ES搜索的文本相似度排序方法,其特征在于,包括以下步骤:a.ES初步搜索获得相似文本集合;b.进行文本分词,得到分词集合;c.以分词集合为基础,对分词后的文本进行向量化表示;d.通过余弦相似度度量文本向量之间相似程度;e.根据余弦相似度值,对文本进行相似度重排序。2.如权利要求1所述的一种基于ES搜索的文本相似度排序方法,其特征在于,步骤b中,在进行文本分词时,对每个文本按照从前往后每相邻的两个字为一词的规则进行分词,即保留了字词的先后位置信息。3.如权利要求1或2所述的一种基于ES搜索的文本相似度排序方法,其特征在于,步...
【专利技术属性】
技术研发人员:文杰锋,刘楚雄,
申请(专利权)人:四川长虹电器股份有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。