一种基于自然语言检索的综合相似度计算方法技术

技术编号:18083894 阅读:68 留言:0更新日期:2018-05-31 12:25
本发明专利技术涉及一种基于自然语言检索的综合相似度计算方法。该方法首先将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;对检索向量和文档向量,在统计信息层面给出了词频相似度和词序相似度计算方法,然后在语义信息层面上给出了词频相似度和语义相似度计算方法,最后结合统计信息层面和语义信息层面给出了一种综合相似度计算方法。本发明专利技术方法通过相关实验验证了方法的有效性。

【技术实现步骤摘要】
一种基于自然语言检索的综合相似度计算方法
本专利技术涉及自然语言处理和信息检索领域,具体的说是一种基于自然语言检索的综合相似度计算方法。
技术介绍
在现代信息技术迅猛发展的时代,互联网上的信息呈爆炸式增长,这给信息检索的发展带来了巨大的挑战。一方面对于大规模的文档数据,信息检索算法需要在较短的时间内返回检索结果;另一方面随着人工智能领域的发展,人们对信息检索的要求不仅是停留在对结构化数据的关键词查询,同时基于自然语言层面上的语义检索也逐步得到重视,因为基于概念上的语义匹配更加符合用户的实际检索需求。针对上述描述的现代信息检索的挑战,本专利技术需要解决的技术问题是给出一种基于自然语言的信息检索中相似度综合计算方法,以提高现代信息检索的效率和准确度。
技术实现思路
针对现有技术中存在的上述不足之处,本专利技术要解决的技术问题是提高现代信息检索的效率和准确度,需要综合考虑统计信息层面和语义信息层面上的相似度。本专利技术为实现上述目的所采用的技术方案是:一种基于自然语言检索的综合相似度计算方法,包括以下步骤:步骤1:用户输入要检索的自然语言;步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);步骤5:对检索向量进行概念扩展;步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。所述检索向量和文档向量的获取方法如下:S1:利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作,得到检索向量S=(s1,s2,…,sn),其中Si为第i个关键词,n为用户检索关键词的个数;S2:从被检索文档中提取出能够表达文档大意的u个关键词,组成文档向量Di=(di1,di2,…,diu);其中,Di表示数据库中第i个文档,diu为第i个文档中第u个文档关键词;则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下:S1:对检索向量和文档向量,获取包含q个相同关键词的集合,即同词向量(V_K):V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq);S2:从而得到,检索向量的同词向量空间和第i篇文档向量的同词向量空间:V_K(S)=((s1,w1S),(s2,w2S),…,(sm,wmS),…,(sq,wqS));V_K(D)=((d1,w1D),(d2,w2D),…,(dm,wmD),…,(dq,wqD));其中,m=1,2,……q,wmS为关键词Sm的权重;wmD为关键词dm的权重;所述wmS与wmD采用传统的tf*idf方法来计算;S3:采用传统VSM计算方法,通过检索向量的同词向量与文档向量的同词向量之间的夹角大小,来衡量检索向量和文档向量的词频相似度:所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下:其中,pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序;pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序;InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数;InvNum(V_R(V_K(D)))表示文档向量的同词向量V_K(D)的逆序数;Length(S)表示检索向量S=(S1,S2,…,Sn)包含的向量的个数,即n;length(Di)表示第i篇文档向量Di=(di1,di2,…,diu)包含的向量的个数,即u。所述对检索向量进行概念扩展如下:S1:通过概念词表HowNet对检索向量S中的关键词进行概念扩展,将概念词表中包含的S中关键词的同义词和近义词扩展到概念扩展后的检索向量C:C=(c1,c2,…ct);其中,t表示扩展后的检索向量中有t个关键词。所述计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di)如下:S1:对概念扩展后的检索向量和文档向量,获取包含r个相同关键词的集合,即同概向量(V_C):V_C=C∩Di=(c1=d1,c2=d2,…,cp=dp,…,cr=dr);S2:从而得到,概念扩展后的检索向量的同概向量空间和文档向量的同概向量空间:V_C(C)=((c1,w1C),(c2,w2C),…,(cp,wpC),…,(cr,wrC));V_C(D)=((d1,w1D),(d2,w2D),…,(dp,wpD),…,(dr,wrD));其中,p=1,2,……r,wpC为关键词Cp的权重;wpD为关键词dp的权重;所述wpC与wpD采用传统的tf*idf方法来计算;S3:借鉴传统VSM计算方法,通过概念扩展后的检索向量的同概向量空间和文档向量的同概向量之间的夹角大小,来衡量概念扩展后的检索向量与文档向量的词频相似度:所述计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di)如下:其中,depth(R(cj,dl))表示节点cj,dl的最近公共祖先节点距离根节点的语义层次深度;depth(cj)表示节点cj距离根节点的语义层次深度;depth(dl)表示节点dl距离根节点的语义层次深度;length(cj,dl)表示从节点cj到节点dl经过的最少的边条数;α+β=1,r表示概念扩展后的检索向量C有r个关键词,u表示文档向量Di有u个关键词,SimSema是将向量C和Di中的关键词一个一个比较来计算语义相似度。所述根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di)如下:Sim(S,Di)=μ1×SimFreq(S,Di)+μ2×SimOrder(S,Di)+μ3×SimCept(S,Di)+μ4×SimSema(S,Di)其中,μ1,μ2,μ3,μ4为经验值,且满足μ1+μ2+μ3+μ4=1。本专利技术具有以下有益效果及优点:1.本专利技术通过综合统计信息和语义信息的相似度特征来衡量检索相似度,使得检索结果更加精确,弥补了传统的基于关键词对结构化数据检索结果不精确的不足。2.本专利技术设计了基于语义层面的相似度计算算法,能够针对自然语言检索有很好的效果,在一定程度上实现了智能化检索。3.本专利技术可以根据不同领域的词表规则定制特定领域的相似度检索算法,具有一定的个性化可扩展性。附图说明图1为本专利技术方法的综合相似度计算方法流程图;图2为本专利技术的本体概念结构图。具体实施方式下面结合附图及实施例对本专利技术做进一步的详细说明。如图1所示,一种基于自然语言检索的综合相似度计算方法,包括以下步骤:步骤1:用户输入要检索的自然语言;步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,本文档来自技高网...
一种基于自然语言检索的综合相似度计算方法

【技术保护点】
一种基于自然语言检索的综合相似度计算方法,其特征在于,包括以下步骤:步骤1:用户输入要检索的自然语言;步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);步骤5:对检索向量进行概念扩展;步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。

【技术特征摘要】
1.一种基于自然语言检索的综合相似度计算方法,其特征在于,包括以下步骤:步骤1:用户输入要检索的自然语言;步骤2:将用户的输入条件和被检索文档通过分词系统提取出各自的关键词,构成检索向量和文档向量;步骤3:对检索向量和文档向量计算词频相似度SimFreq(S,Di);步骤4:对检索向量和文档向量计算词序相似度SimOrder(S,Di);步骤5:对检索向量进行概念扩展;步骤6:计算概念扩展后的检索向量与文档向量的词频相似度SimCept(S,Di);步骤7:计算概念扩展后的检索向量与文档向量的语义相似度SimSema(S,Di);步骤8:根据SimFreq(S,Di)、SimOrder(S,Di)、SimCept(S,Di)、SimSema(S,Di)计算综合相似度Sim(S,Di);步骤9:将计算获取的最大综合相似度Sim(S,Di)对应的文章反馈给检索用户。2.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述检索向量和文档向量的获取方法如下:S1:利用自然语言处理技术对用户输入的检索信息利用分词系统进行分词、词性标注、去停用词操作,得到检索向量S=(s1,s2,…,Sn),其中si为第i个关键词,n为用户检索关键词的个数;S2:从被检索文档中提取出能够表达文档大意的u个关键词,组成文档向量Di=(di1,di2,…,diu);其中,Di表示数据库中第i个文档,diu为第i个文档中第u个文档关键词;则对于含有t篇文档的数据库可以表示成D=(D1,D2,…,DT)。3.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量和文档向量计算词频相似度SimFreq(S,Di)如下:S1:对检索向量和文档向量,获取包含q个相同关键词的集合,即同词向量(V_K):V_K=S∩Di=(s1=d1,s2=d2,…,sm=dm,…,sq=dq);S2:从而得到,检索向量的同词向量空间和第i篇文档向量的同词向量空间:V_K(S)=((s1,w1S),(s2,w2S),…,(sm,wmS),…,(sq,wqS));V_K(D)=((d1,w1D),(d2,w2D),…,(dm,wmD),…,(dq,wqD));其中,m=1,2,……q,wmS为关键词Sm的权重;wmD为关键词dm的权重;所述wmS与wmD采用传统的tf*idf方法来计算;S3:采用传统VSM计算方法,通过检索向量的同词向量与文档向量的同词向量之间的夹角大小,来衡量检索向量和文档向量的词频相似度:4.根据权利要求1所述的一种基于自然语言检索的综合相似度计算方法,其特征在于,所述对检索向量和文档向量计算词序相似度SimOrder(S,Di)如下:其中,pos(sm)表示第m个关键词在检索同词向量中出现的绝对词序;pos(dm)表示第m个关键词在文档同词向量中出现的绝对词序;InvNum(V_R(V_K(S)))表示检索向量的同词向量V_K(S)的逆序数;InvNum(V_R(V_K...

【专利技术属性】
技术研发人员:王宁徐浩广祁柏林张镝陈月白雪徐凯王丽丽李论周晓磊宋春梅
申请(专利权)人:中国科学院沈阳计算技术研究所有限公司
类型:发明
国别省市:辽宁,21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1