一种基于自然语言检索的综合相似度计算方法技术

技术编号：18083894 阅读：68 留言：0更新日期：2018-05-31 12:25

本发明专利技术涉及一种基于自然语言检索的综合相似度计算方法。该方法首先将用户的输入条件和被检索文档通过分词系统提取出各自的关键词，构成检索向量和文档向量；对检索向量和文档向量，在统计信息层面给出了词频相似度和词序相似度计算方法，然后在语义信息层面上给出了词频相似度和语义相似度计算方法，最后结合统计信息层面和语义信息层面给出了一种综合相似度计算方法。本发明专利技术方法通过相关实验验证了方法的有效性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于自然语言检索的综合相似度计算方法
本专利技术涉及自然语言处理和信息检索领域,具体的说是一种基于自然语言检索的综合相似度计算方法。
技术介绍
在现代信息技术迅猛发展的时代，互联网上的信息呈爆炸式增长，这给信息检索的发展带来了巨大的挑战。一方面对于大规模的文档数据，信息检索算法需要在较短的时间内返回检索结果；另一方面随着人工智能领域的发展，人们对信息检索的要求不仅是停留在对结构化数据的关键词查询，同时基于自然语言层面上的语义检索也逐步得到重视，因为基于概念上的语义匹配更加符合用户的实际检索需求。针对上述描述的现代信息检索的挑战，本专利技术需要解决的技术问题是给出一种基于自然语言的信息检索中相似度综合计算方法，以提高现代信息检索的效率和准确度。
技术实现思路
针对现有技术中存在的上述不足之处，本专利技术要解决的技术问题是提高现代信息检索的效率和准确度，需要综合考虑统计信息层面和语义信息层面上的相似度。本专利技术为实现上述目的所采用的技术方案是：一种基于自然语言检索的综合相似度计算方法，包括以下步骤：步骤1：用户输入要检索的自然语言；步骤2：将用户的输入条件和被检索文档通过分词系统提取出各自的关键词，构成检索向量和文档向量；步骤3：对检索向量和文档向量计算词频相似度SimFreq(S,Di)；步骤4：对检索向量和文档向量计算词序相似度SimOrder(S,Di)；步骤5：对检索向量进行概念扩展；步骤6：计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)；步骤7：计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)；步骤...
一种基于自然语言检索的综合相似度计算方法

【技术保护点】
一种基于自然语言检索的综合相似度计算方法，其特征在于，包括以下步骤：步骤1：用户输入要检索的自然语言；步骤2：将用户的输入条件和被检索文档通过分词系统提取出各自的关键词，构成检索向量和文档向量；步骤3：对检索向量和文档向量计算词频相似度SimFreq(S,Di)；步骤4：对检索向量和文档向量计算词序相似度SimOrder(S,Di)；步骤5：对检索向量进行概念扩展；步骤6：计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)；步骤7：计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)；步骤8：根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)；步骤9：将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。

【技术特征摘要】
1.一种基于自然语言检索的综合相似度计算方法，其特征在于，包括以下步骤：步骤1：用户输入要检索的自然语言；步骤2：将用户的输入条件和被检索文档通过分词系统提取出各自的关键词，构成检索向量和文档向量；步骤3：对检索向量和文档向量计算词频相似度SimFreq(S,Di)；步骤4：对检索向量和文档向量计算词序相似度SimOrder(S,Di)；步骤5：对检索向量进行概念扩展；步骤6：计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)；步骤7：计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)；步骤8：根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)；步骤9：将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。2.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述检索向量和文档向量的获取方法如下：S1：利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作，得到检索向量S＝(s1,s2,…,Sn)，其中si为第i个关键词，n为用户检索关键词的个数；S2：从被检索文档中提取出能够表达文档大意的u个关键词，组成文档向量Di＝(di1,di2,…,diu)；其中，Di表示数据库中第i个文档，diu为第i个文档中第u个文档关键词；则对于含有t篇文档的数据库可以表示成D＝(D1,D2,…,DT)。3.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下：S1：对检索向量和文档向量，获取包含q个相同关键词的集合，即同词向量(V_K)：V_K＝S∩Di＝(s1＝d1,s2＝d2,…，sm＝dm,…，sq＝dq)；S2：从而得到，检索向量的同词向量空间和第i篇文档向量的同词向量空间：V_K(S)＝((s1,w1S),(s2,w2S),…,(sm,wmS),…,(sq,wqS))；V_K(D)＝((d1,w1D),(d2,w2D),…,(dm,wmD),…,(dq,wqD))；其中，m＝1,2,……q，wmS为关键词Sm的权重；wmD为关键词dm的权重；所述wmS与wmD采用传统的tf*idf方法来计算；S3：采用传统VSM计算方法，通过检索向量的同词向量与文档向量的同词向量之间的夹角大小，来衡量检索向量和文档向量的词频相似度：4.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法，其特征在于，所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下：其中，pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序；pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序；InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数；InvNum(V_R(V_K...

【专利技术属性】
技术研发人员：王宁，徐浩广，祁柏林，张镝，陈月，白雪，徐凯，王丽丽，李论，周晓磊，宋春梅，
申请(专利权)人：中国科学院沈阳计算技术研究所有限公司，
类型：发明
国别省市：辽宁,21

全部详细技术资料下载我是这个专利的主人