一种基于ES搜索的文本相似度排序方法技术

技术编号：17779681 阅读：90 留言：0更新日期：2018-04-22 08:10

本发明专利技术属于大数据技术领域，其公开了一种基于ES搜索的文本相似度排序方法，通过将文本字词之间的位置顺序作为算法考虑因素，计算文本之间的相似程度，以解决ES搜索无法排序同词不同序文本的问题，提高ES文本相似度排序的准确率。该方法包括以下步骤：a.ES初步搜索获得相似文本集合；b.进行文本分词，得到分词集合；c.以分词集合为基础，对分词后的文本进行向量化表示；d.通过余弦相似度度量文本向量之间相似程度；e.根据余弦相似度值，对文本进行相似度重排序。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于ES搜索的文本相似度排序方法
本专利技术属于大数据
,具体涉及一种基于ES搜索的文本相似度排序方法。
技术介绍
ES作为一个实时的分布式搜索和分析引擎，可以用于全文搜索，结构化搜索以及分析。其工作原理为在对文本建立索引的基础上，通过将查询文本进行分词，计算词在数据库文本中出现的频率，以及数据库文本中含有该词的文本数量，然后通过TF-IDF模型的计算公式计算出数据库中文本与查询文本的相似度值，根据相似度值降序快速返回搜索结果。由于ES的搜索速度快，所以其应用领域也在不断增多。但是，ES默认的评分规则采用了TF-IDF算法模型，该模型以词频作为文本相似度计算的基本单位，没有考虑词与词之间的位置顺序，导致搜索出的排序结果并不能满足需求，时常需要在原有排序的基础上结合应用场景，对评分进行二次打分与重新排序。比如，在相关度相差不大的情况下，词与词或者字与字之间的顺序越接近就应该越靠前等。此时就需要对搜索结果进行重新打分排序。例如：用户搜索”清理内存”，如果数据库中同时存在“清理内存”与“内存清理”两条数据，那么经过TF-IDF算法模型，计算出的“内存清理”的得...
一种基于ES搜索的文本相似度排序方法

【技术保护点】
一种基于ES搜索的文本相似度排序方法，其特征在于，包括以下步骤：a.ES初步搜索获得相似文本集合；b.进行文本分词，得到分词集合；c.以分词集合为基础，对分词后的文本进行向量化表示；d.通过余弦相似度度量文本向量之间相似程度；e.根据余弦相似度值，对文本进行相似度重排序。

【技术特征摘要】
1.一种基于ES搜索的文本相似度排序方法，其特征在于，包括以下步骤：a.ES初步搜索获得相似文本集合；b.进行文本分词，得到分词集合；c.以分词集合为基础，对分词后的文本进行向量化表示；d.通过余弦相似度度量文本向量之间相似程度；e.根据余弦相似度值，对文本进行相似度重排序。2.如权利要求1所述的一种基于ES搜索的文本相似度排序方法，其特征在于，步骤b中，在进行文本分词时，对每个文本按照从前往后每相邻的两个字为一词的规则进行分词,即保留了字词的先后位置信息。3.如权利要求1或2所述的一种基于ES搜索的文本相似度排序方法，其特征在于，步...

【专利技术属性】
技术研发人员：文杰锋，刘楚雄，
申请(专利权)人：四川长虹电器股份有限公司，
类型：发明
国别省市：四川,51

全部详细技术资料下载我是这个专利的主人