一种基于人工智能的档案全文检索方法及系统技术方案

技术编号：41282607 阅读：5 留言：0更新日期：2024-05-11 09:32

本发明专利技术属于人工智能邻域，尤其是基于人工智能的档案全文检索方法及系统，具体地，建立词项和档案的对应关系并得到倒排记录表；对用户输入的检索词和所述倒排记录表中的每个词项分别进行编码得到对应的检索词嵌入向量和词项嵌入向量；从第一邻域半径开始，根据邻域半径对所述词项嵌入向量进行聚类，计算聚类结果中和检索词嵌入向量距离最近的簇，根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，若所述检索结果的数量小于阈值，则得到下一个邻域半径对应的档案全文检索结果，以此类推，直到所有检索结果去重后的数量不小于阈值；将去重后的所有检索结果排序后推送给用户。本发明专利技术提高了档案全文检索的准确性和全面性。

全部详细技术资料下载

【技术实现步骤摘要】

技术介绍

1、档案是指过去和现在的国家机构、社会组织以及个人从事政治、经济、科学、技术、文化、宗教等活动直接形成的对国家和社会有保存价值的各种文字、图表、声像等不同形式的历史记录。档案的检索一直是档案管理的重点，尤其是在当前档案数量庞大、类型多样的情况下，高效准确的检索方法成为保证信息可用性和访问性的关键。全文检索允许用户通过搜索文档中的具体词语或短语快速定位相关信息，相对于传统的基于元数据或摘要的检索方式更高效，尤其是检索隐藏在档案的某个不显眼部分。倒排索引是全文检索中最常用的技术之一，它首先创建一个索引，将每个词与包含该词的文档列表相关联，搜索时，算法直接查找包含查询词的文档列表。但是对于同义词、近义词、别名等的检索准确度不够，很容易遗漏重要的信息。如何能够提高档案全文检索的准确度和全面性是本邻域亟待解决的问题。

技术实现思路

1、为了解决上述问题，本专利技术提供了一种基于人工智能的档案全文检索方法，所述方法包括以下步骤：

2、对档案中的文本进行分词得到每个档案对应的词项，建立词项和档案的对应关系并得到倒排记录表；对用户输入的检索词和所述倒排记录表中的每个词项分别进行编码得到对应的检索词嵌入向量和词项嵌入向量；

3、从第一邻域半径开始，根据邻域半径对所述词项嵌入向量进行聚类，计算聚类结果中和检索词嵌入向量距离最近的簇，根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，若所述检索结果的数量小于阈值，则得到下一个邻域半径对应的档案全文检索结果，以

4、优选地，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

5、计算每个簇中所有核心对象对应的词项嵌入向量的平均值；

6、得到检索词嵌入向量和每个簇的平均值的距离，将距离最小的簇作为与检索词嵌入向量距离最近的簇。

7、优选地，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

8、获取每个簇中核心对象和非核心对象，将核心对象加入到集合中，并且若非核心对象在至少两个核心对象的邻域半径内，则将非核心对象加入集合中；

9、计算所述集合中所有对象对应的词项嵌入向量的平均值得到簇的平均值；

10、计算检索词嵌入向量和每个簇的平均值的距离，将距离最小的簇作为与检索词嵌入向量距离最近的簇。

11、优选地，所述根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，具体为：

12、获取每个检索词对应的簇中的所有元素，从所述倒排记录表中找到所述元素对应的档案，进而得到每个检索词对应的档案集；

13、若一个档案同时存在于每个检索词对应的档案集，则将档案作为档案全文检索结果。

14、优选地，所述将去重后的所有检索结果排序后推送给用户，具体为：

15、根据检索结果对应的邻域半径将检索结果分为至少一个组，按照邻域半径从小到大的顺序对组排序；

16、对于每个组中的元素，计算和每个检索词嵌入向量距离最近的词项嵌入向量，进而得到检索词和词项的对应关系和距离，计算所有检索词和对应的词项的距离的平均值，按照平均值从小到大的顺序对组内的元素排序；

17、按照组排序和组内的检索结果排序将检索结果推送给用户。

18、优选地，所述按照平均值从小到大的顺序对组内的元素排序，具体为：

19、若平均值相同，同时删除平均值相同的元素中所有检索词和对应的词项的距离的最大值，重新计算平均值，将重新计算的平均值较小者排在较大者之前；若重新计算的平均值仍相同，继续删除剩余检索词和对应的词项的距离的最大值，重新计算平均值，将重新计算的平均值较小者排在较大者之前；依次类推，直到所有平均值相同的元素排序完毕。

20、此外，本专利技术还提供了一种基于人工智能的档案全文检索系统，所述系统包括以下模块：

21、词编码模块，用于对档案中的文本进行分词得到每个档案对应的词项，建立词项和档案的对应关系并得到倒排记录表；对用户输入的检索词和所述倒排记录表中的每个词项分别进行编码得到对应的检索词嵌入向量和词项嵌入向量；

22、检索模块，用于从第一邻域半径开始，根据邻域半径对所述词项嵌入向量进行聚类，计算聚类结果中和检索词嵌入向量距离最近的簇，根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，若所述检索结果的数量小于阈值，则得到下一个邻域半径对应的档案全文检索结果，以此类推，直到所有检索结果去重后的数量不小于阈值；将去重后的所有检索结果排序后推送给用户；其中，第一邻域半径最小，且下一个邻域半径大于上一个邻域半径。

23、优选地，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

24、计算每个簇中所有核心对象对应的词项嵌入向量的平均值；

25、得到检索词嵌入向量和每个簇的平均值的距离，将距离最小的簇作为与检索词嵌入向量距离最近的簇。

26、优选地，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

27、获取每个簇中核心对象和非核心对象，将核心对象加入到集合中，并且若非核心对象在至少两个核心对象的邻域半径内，则将非核心对象加入集合中；

28、计算所述集合中所有对象对应的词项嵌入向量的平均值得到簇的平均值；

29、计算检索词嵌入向量和每个簇的平均值的距离，将距离最小的簇作为与检索词嵌入向量距离最近的簇。

30、优选地，所述根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，具体为：

31、获取每个检索词对应的簇中的所有元素，从所述倒排记录表中找到所述元素对应的档案，进而得到每个检索词对应的档案集；

32、若一个档案同时存在于每个检索词对应的档案集，则将档案作为档案全文检索结果。

33、优选地，所述将去重后的所有检索结果排序后推送给用户，具体为：

34、根据检索结果对应的邻域半径将检索结果分为至少一个组，按照邻域半径从小到大的顺序对组排序；

35、对于每个组中的元素，计算和每个检索词嵌入向量距离最近的词项嵌入向量，进而得到检索词和词项的对应关系和距离，计算所有检索词和对应的词项的距离的平均值，按照平均值从小到大的顺序对组内的元素排序；

36、按照组排序和组内的检索结果排序将检索结果推送给用户。

37、优选地，所述按照平均值从小到大的顺序对组内的元素排序，具体为：

38、若平均值相同，同时删除平均值相同的元素中所有检索词和对应的词项的距离的最大值，重新计算平均值，将重新计算的平均值较小者排在较大者之前；若重新计算的平均值仍相同，继续删除剩余检索词和对应的词项的距离的最大值，重新计算平均值，将重新计算的平均值较小者排在较大本文档来自技高网...

【技术保护点】

1.一种基于人工智能的档案全文检索方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

3.如权利要求1所述的方法，其特征在于，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

4.如权利要求1所述的方法，其特征在于，所述根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，具体为：

5.如权利要求1所述的方法，其特征在于，所述将去重后的所有检索结果排序后推送给用户，具体为：

6.如权利要求5所述的方法，其特征在于，所述按照平均值从小到大的顺序对组内的元素排序，具体为：

7.一种基于人工智能的档案全文检索系统，其特征在于，所述系统包括以下模块：

8.如权利要求7所述的系统，其特征在于，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

9.如权利要求7所述的系统，其特征在于，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

10.一种计算机程序产品，包括计算机可

...

【技术特征摘要】

1.一种基于人工智能的档案全文检索方法，其特征在于，所述方法包括以下步骤：

2.如权利要求1所述的方法，其特征在于，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

3.如权利要求1所述的方法，其特征在于，所述计算聚类结果中和检索词嵌入向量距离最近的簇，具体为：

4.如权利要求1所述的方法，其特征在于，所述根据所述倒排记录表和每个检索词对应的簇得到档案全文检索结果，具体为：

5.如权利要求1所述的方法，其特征在于，所述将去重后的所有检索结果排序后推送给用户，具体为：

【专利技术属性】
技术研发人员：尹光成，
申请(专利权)人：郑州日兴电子科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人