一种信息检索方法及装置制造方法及图纸

技术编号:38856419 阅读:14 留言:0更新日期:2023-09-17 10:01
本发明专利技术公开了一种信息检索方法及装置,包括获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词主题,计算第一相似度和第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据,根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。该方法不仅可以提高信息检索的精度,同时具有较好的可解释性,可以直接应用于信息检索系统中。用于信息检索系统中。用于信息检索系统中。

【技术实现步骤摘要】
一种信息检索方法及装置


[0001]本专利技术涉及信息检索领域,尤其涉及一种信息检索方法及装置。

技术介绍

[0002]特征提取技术在信息检索领域的应用越来越广泛,可以帮助信息检索的管理者及时、高效地检索信息,实现信息的检索。目前,信息检索具有文本信息量庞大、数据种类多样、信息密度大等特点,信息提取和检索方法存在较多的不确定因素,导致信息检索方法存在较大的不确定性。虽然已经专利技术了一些信息检索方法和装置,但是仍不能有效解决信息检索方法的不确定问题。

技术实现思路

[0003]本专利技术的目的是要提供一种信息检索方法。
[0004]为达到上述目的,本专利技术是按照以下技术方案实施的:本专利技术包括以下步骤:A获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;B根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;C根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
[0005]进一步的,步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注。
[0006]进一步的,提取预处理后的所述历史检索数据的关键词的方法,包括:将预处理后的所述历史检索数据中的句子作为节点,如果两个句子有相似性,则两个句子对应的节点之间存在无向有权边,计算句子之间相似性:其中句子i为,句子j为,句子中的词为;根据权边构建词图,采用共现关系构造任意两个节点之间的边,迭代计算各节点的权重:其中节点c句子i的权重为,阻尼系数为d,窗口的大小为k,节点集合为c,节
点i和节点j的边缘连接的重要程度为;直到收敛,对节点的权重进行倒序排序,从中得到最重要的词,作为候选关键词,在所述历史检索数据和所述资料库资料中将候选关键词标记,若它们之间形成相邻词组则作为关键词输出。
[0007]进一步的,根据所述关键词提取主题的方法,包括:对所述关键词进行去重,构建名词词典,将所述资料库资料的词汇与名词词典进行匹配,构造稀疏矩阵,利用矩阵相乘的原则将系数矩阵分解为主题矩阵和词汇矩阵,利用迭代公式进行多次迭代,迭代公式为:迭代公式为:其中i行k列主题矩阵为,k行j列词汇矩阵为,i行k列稀疏矩阵为,词汇矩阵的转置矩阵为,主题矩阵的转置矩阵为,主题矩阵R中的每一列为一个主题,词汇矩阵D中的每一行与之对应的主题词;确定最佳主题数,当子矩阵收敛后形成稳定的子矩阵,主题矩阵为主题,词汇矩阵是与该主题对应的主题词。
[0008]进一步的,所述第一相似度的计算公式为:其中历史检索数据的关键词为a,资料库资料的关键词为b,历史检索数据关键词a集合为A,资料库资料关键词b集合为B,在集合B中但不在集合A中的关键词集合为B\A,在集合A中但不在集合B中的关键词集合为A\B。
[0009]进一步的,所述第二相似度的计算公式为:其中主题m为,主题e为,词i的权重为,词有n个。
[0010]进一步的,所述第一相似度和所述第二相似度加权得出综合相似度的方法,包括:计算所述第一相似度和所述第二相似度的信息熵:其中相似度为s,每一个相似度出现的概率为,第i个相似度为,相似度有k个,计算条件熵:
其中相似度的种类为e,计算总的信息增益:熵越大表示相似性越不稳定,根据总的信息增益比值的相反数确定权重;计算综合相似度:其综合相似度为,第一相似度的权重为,第二相似度的权重为,关键词x的相似度为,主题y的相似度为。
[0011]进一步的,根据所述综合相似度对所述资料库资料进行分类获得分类数据的方法,包括:将所述资料库资料的关键词和主题输入,随机选取所述资料库资料的关键词和主图作为聚类中心,计算聚类中心与其它关键词主题的相似度,将相似度高的关键词和主题与聚类中心关联起来,与相同聚类中心关联的所有关键词主题聚成一类,计算形成的类的相似度平均值,将该组的聚类中心点移动到品均值对应的关键词主题上,重复上述步骤直到聚类中心不再变化,输出分类数据。
[0012]进一步的,所述检索匹配模型基于循环神经网络构成,将预处理后的所述历史检索数据按照3:2随机划分成训练集和测试集,将所述训练集和所述资料库资料输入检索匹配模型进行训练,将测试集和资料库资料输入训练好的所述检索匹配模型,直到相似度高于0.83停止训练。
[0013]第二方面,一种信息检索装置,包括:提取模块:用于获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;分析模块:用于根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;检索模块:用于根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。
[0014]本专利技术的有益效果是:本专利技术是一种信息检索方法,与现有技术相比,本专利技术具有以下技术效果:本专利技术通过预处理、提取关键词、提取主题、聚类和匹配步骤,可以提高信息检索的准确性,从而提高信息检索的精度,将信息检索智能化,可以大大节省资源和人力成本,提高工作效率,可以实现对信息的自动提取,实时对待处理文本进行关键词和主题提取,对信息检索具有重要意义,可以适应不同标准的信息检索、不同用户的信息检索需求,具有一
定的普适性。
附图说明
[0015]图1为本专利技术一种信息检索方法的步骤流程图。
具体实施方式
[0016]下面通过具体实施例对本专利技术作进一步描述,在此专利技术的示意性实施例以及说明用来解释本专利技术,但并不作为对本专利技术的限定。
[0017]本专利技术基于信息检索方法包括以下步骤:如图1所示,在本实施例中,包括以下步骤:A获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;B根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;C根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出;在实际评估中,检索数据为“个性化推荐”,资料库资料为“个性化推荐总结”、“个性化推荐的6种方法”、“个性化推荐系统概述”、“个性化系统实践应用”、“系统总结个性化推荐系统”为例。
[0018]在本实施例中,步骤A中所述预处理包括对所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,其特征在于,包括以下步骤:A获取历史检索数据和资料库资料的关键词主题,对所述历史检索数据进行预处理,提取预处理后的所述历史检索数据的关键词,根据所述关键词提取主题;B根据所述关键词计算第一相似度,根据所述主题计算第二相似度,所述第一相似度和所述第二相似度加权得出综合相似度,根据所述综合相似度对所述资料库资料进行分类获得分类数据;C根据所述综合相似度构建检索匹配模型,将所述分类数据和所述历史检索数据输入所述检索匹配模型,将所述综合相似度降序排序,将前两个所述综合相似度对应的资料库资料作为信息检索结果输出。2.根据权利要求1所述的一种信息检索方法,其特征在于,步骤A中所述预处理包括对所述历史检索数据进行切分、分词、去停用词和词性标注。3.根据权利要求1所述的一种信息检索方法,其特征在于,提取预处理后的所述历史检索数据的关键词的方法,包括:将预处理后的所述历史检索数据中的句子作为节点,如果两个句子有相似性,则两个句子对应的节点之间存在无向有权边,计算句子之间相似性: ;其中句子i为,句子j为,句子中的词为;根据权边构建词图,采用共现关系构造任意两个节点之间的边,迭代计算各节点的权重: ;其中节点c句子i的权重为,阻尼系数为d,窗口的大小为k,节点集合为c,节点i和节点j的边缘连接的重要程度为;直到收敛,对节点的权重进行倒序排序,从中得到最重要的词,作为候选关键词,在所述历史检索数据和所述资料库资料中将候选关键词标记,若它们之间形成相邻词组则作为关键词输出。4.根据权利要求1所述的一种信息检索方法,其特征在于,根据所述关键词提取主题的方法,包括:对所述关键词进行去重,构建名词词典,将所述资料库资料的词汇与名词词典进行匹配,构造稀疏矩阵,利用矩阵相乘的原则将系数矩阵分解为主题矩阵和词汇矩阵,利用迭代公式进行多次迭代,迭代公式为:迭代公式为: ;
其中i行k列主题矩阵为,k行j列词汇矩阵为,i行k列稀疏矩阵为,词汇矩阵的转置矩阵为,主题矩阵的转置矩阵为,主题矩阵R中的每一列为一个主题,词汇矩阵D中的每一行与之对应的主题词;确定最佳主题数,当子矩阵收敛后形成稳定的子矩阵,主题矩阵为主题,词汇矩阵是与该主题对应的主题词。5.根据权利要求1所述的一种信息检索方法,其特征在于,所述第一相似度的计算公式为: ;其中历史检索数据的关键词为a,资料库资料的关键词为b,历史检索数据关键词a集合为A,资料库资料关键词b集...

【专利技术属性】
技术研发人员:于钢王静雅孙宇宁卢丽丽
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1