一种基于倒排索引的相似文本获取方法技术

技术编号：40560573 阅读：8 留言：0更新日期：2024-03-05 19:23

本发明专利技术公开一种基于倒排索引的相似文本获取方法，对已有文本建立倒排索引，主要包括文档预处理、构建单词词典、构建倒排列表以及构建倒排索引过程；输入待查询文本，经过预处理后，得到查询词项列表，然后根据BM25计算公式分别计算每个词项在已有文档中的分数，将各个词项的分数加权平均后得到各个文档的最终评分；选取评分靠前的N个文档，与待查询文本进行余弦相似性计算，得到每个文档的相似度值；设定相似度阈值，将相似度值超过阈值的文档作为最终的相似文本结果集进行输出。本发明专利技术能够实现相似文本快速而又准确的获取，并且能够适应不同类型的文本数据，应用场景较多。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本处理技术，具体涉及一种基于倒排索引的相似文本获取方法。

技术介绍

1、随着数字时代的来临，大规模文本数据呈现爆炸性增长的趋势。社交媒体、新闻网站、学术数据库等不断涌现大量文本信息，这些数据中蕴含着丰富的信息和知识，寻找相似文本使我们能够从这庞大的数据集中快速准确地提取相关信息，摘要出关键知识，发现潜在模式，为决策和研究提供价值支持。现有的文本相似度计算方案大多基于余弦夹角算法、欧式距离、jaccard相似度、最长公共子串、编辑距离等，这些方法直接对大数据规模的文本进行比对，效率较低，难以应对海量文本的高效获取需求。

技术实现思路

1、本专利技术的目的在于提出一种基于倒排索引的相似文本获取方法。。

2、实现本专利技术目的的技术解决方案为：一种基于倒排索引的相似文本获取方法，包括如下步骤：

3、步骤1，对已有文本建立倒排索引，主要包括文档预处理、构建单词词典、构建倒排列表以及构建倒排索引过程；

4、步骤2，输入待查询文本，经过预处理后，得到查询词项列表，然后根据bm25计算公式分别计算每个词项在已有文档中的分数，将各个词项的分数加权平均后得到各个文档的最终评分；

5、步骤3，选取步骤2中评分靠前的n个文档，与步骤2中的待查询文本进行余弦相似性计算，得到每个文档的相似度值；

6、步骤4，设定相似度阈值，将步骤3中相似度值超过阈值的文档作为最终的相似文本结果集进行输出。

7、进一步的，步骤1，对已有文

8、1.1文档预处理：

9、对文档进行预处理，包括分词、词干提取、去除停用词和大小写转换，将原始文档处理成一个个独立的词项；

10、1.2构建单词词典：

11、遍历预处理后的文档，将所有词项存储到单词词典中，单词词典是一个关键词到倒排列表的映射结构，存储了所有出现过的关键字，并为每个关键字记录其在倒排列表中的位置或偏移量；

12、1.3构建倒排列表：

13、针对每个词项，记录该词项在文档中的位置信息，形成倒排列表，倒排列表中的每个记录通常包括文档id、词频和位置；

14、1.4构建倒排索引：

15、将单词词典和倒排列表结合构建倒排索引，倒排索引是由单词词典中的每个词项和其对应的倒排列表组成；

16、1.5倒排索引存储优化：

17、对倒排索引进行优化，采用压缩算法、索引分片或分布式存储方式，提高检索效率和减少存储空间。

18、进一步的，步骤2，输入待查询文本，经过预处理后，得到查询词项列表，然后根据bm25计算公式分别计算每个词项在已有文档中的分数，将各个词项的分数加权平均后得到各个文档的最终评分，其中：

19、bm25模型的计算公式如下：

20、

21、其中：

22、d代表文档；

23、q代表查询；

24、f(qi，d)是查询词qi在文档中的出现频率tf；

25、|d|是文档的长度；

26、avgdl是文档集合的平均长度；

27、k1和b是bm25模型的两个调节参数；

28、idf(qi)是查询词qi的逆文档频率；

29、tf计算公式如下：

30、

31、idf(qi)计算公式如下：

32、

33、进一步的，步骤3，选取步骤2中评分靠前的n个文档，与步骤2中的待查询文本进行余弦相似性计算，得到每个文档的相似度值，其中：

34、余弦相似度通过计算两个向量之间的夹角余弦值来评估它们之间的相似程度，计算公式如下所示：

35、

36、这里的ai和bi分别代表向量a和b的分量，余弦相似值的范围在-1到1之间：

37、当余弦相似度等于1时，表示两个向量的方向完全相同，它们之间的夹角为0度，表示它们非常相似；

38、当余弦相似度等于0时，表示两个向量之间的夹角为90度，它们之间没有线性关系，被认为不相似；

39、当余弦相似度等于-1时，表示两个向量的方向完全相反，它们之间的夹角为180度，表示它们完全不相似。

40、一种基于倒排索引的相似文本获取系统，实施所述的基于倒排索引的相似文本获取方法，实现基于倒排索引的相似文本获取。

41、一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序时，实施所述的基于倒排索引的相似文本获取方法，实现基于倒排索引的相似文本获取。

42、一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实施所述的基于倒排索引的相似文本获取方法，实现基于倒排索引的相似文本获取。

43、本专利技术与现有技术相比，其显著优点为：结合倒排索引的速度快和余弦相似度精度高的特点，能够实现相似文本快速而又准确的获取，并且能够适应不同类型的文本数据，应用场景较多。

本文档来自技高网...

【技术保护点】

1.一种基于倒排索引的相似文本获取方法，其特征在于，包括如下步骤：

2.根据权利要求1所述的基于倒排索引的相似文本获取方法，其特征在于，步骤1，对已有文本建立倒排索引，主要包括文档预处理、构建单词词典、构建倒排列表以及构建倒排索引过程，具体方法为：

3.根据权利要求1所述的基于倒排索引的相似文本获取方法，其特征在于，步骤2，输入待查询文本，经过预处理后，得到查询词项列表，然后根据BM25计算公式分别计算每个词项在已有文档中的分数，将各个词项的分数加权平均后得到各个文档的最终评分，其中：

4.根据权利要求1所述的基于倒排索引的相似文本获取方法，其特征在于，步骤3，选取步骤2中评分靠前的N个文档，与步骤2中的待查询文本进行余弦相似性计算，得到每个文档的相似度值，其中：

5.一种基于倒排索引的相似文本获取系统，其特征在于，实施权利要求1-4任一项所述的基于倒排索引的相似文本获取方法，实现基于倒排索引的相似文本获取。

6.一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程

7.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，实施权利要求1-4任一项所述的基于倒排索引的相似文本获取方法，实现基于倒排索引的相似文本获取。

...

【技术特征摘要】

1.一种基于倒排索引的相似文本获取方法，其特征在于，包括如下步骤：

3.根据权利要求1所述的基于倒排索引的相似文本获取方法，其特征在于，步骤2，输入待查询文本，经过预处理后，得到查询词项列表，然后根据bm25计算公式分别计算每个词项在已有文档中的分数，将各个词项的分数加权平均后得到各个文档的最终评分，其中：

4.根据权利要求1所述的基于倒排索引的相似文本获取方法，其特征在于，步骤3，选取步骤2中评分靠前的n个文档，与步骤...

【专利技术属性】
技术研发人员：费涛，包兴，王迪，沈红，马凯强，于梓洋，孙长中，
申请(专利权)人：苏州空天信息研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人