一种基于多特征的术语检索方法技术

技术编号:25439267 阅读:39 留言:0更新日期:2020-08-28 22:27
本发明专利技术公开了一种基于多特征的术语检索方法,该方法包括如下步骤:建立术语的表示模型结构的步骤;基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。该方法能有效发现检索出相关术语,并对相似术语集合进行合理排序,满足多种术语检索的应用要求,利于术语的编写和规范使用。

【技术实现步骤摘要】
一种基于多特征的术语检索方法
本专利技术涉及一种自然语言处理方法,具体涉及一种术语检索方法。
技术介绍
现实生活和研究中会定义并使用大量的术语,特别是ISO标准等相关文档的撰写中也需要定义和引用大量的术语,因此出现了越来越多的术语。如何对术语进行检索,对术语的管理和使用至关重要,也对术语规范化使用提供技术支撑。在定义和使用术语的时候,可以利用检索算法去检索相关的已定义和已使用的术语,从而来规范术语的定义和使用,也可以避免重复定义带来的混乱等问题。针对上述几个问题,本专利技术提出并且实现了一种基于多特征的术语检索方法。
技术实现思路
专利技术目的:为了解决现有技术中的不足,本专利技术的目的是提供一种基于多特征的术语检索方法。技术方案:为解决上述技术问题,本专利技术提供的一种基于多特征的术语检索方法,该方法包括如下步骤:建立术语的表示模型结构的步骤;基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。优选的,所述建立术语的表示模型结构的步骤中,基于五元组建立术语的表示模型结构为:T=<t,et,C,D,N>其中,t为术语的中文名称;et为术语的英文名称;C为术语的所属领域的信息;D为术语的标准定义;N是其它信息的结合。优选的,其中,对于术语T1和术语T2,所述基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤,包括:分别将术语T1和术语T2的中文名称切分成字的集合,进而对术语T1和术语T2的中文名称进行相似度计算得到术语中文名称相似度的步骤;以及分别将术语T1和术语T2的英文名称切分成2-gram序列集合,进而对术语T1和术语T2的英文名称进行相似度计算得到术语英文名称相似度的步骤;以及融合术语中文名称相似度和术语英文名称相似度,得到术语T1和术语T2的术语名称相似度的步骤;其中,对于术语T1和术语T2,所述基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤,包括:对术语T1和术语T2的定义进行相似度计算得到术语定义相似度的步骤;以及对术语T1和术语T2的其它信息进行相似度计算得到术语其它信息相似度的步骤;以及融合术语定义相似度和术语其它信息相似度,得到术语T1和术语T2的术语相关特征相似度的步骤。作为优选的,所述融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤中,对于术语T1和术语T2,所述术语综合相似度为术语名称相似度和术语相关特征相似度的均值。优选的,其中,融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤,包括:对于给定术语T1,遍历术语库Dic中的每一个术语进行相似度判断,直到术语库Dic中所有的术语都判断完毕,得到给定术语T1的相似术语集合resultLst的步骤;其中,对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤,包括:对于给定术语T1,首先按术语T1与resultLst中各相似术语的术语综合相似度从大到小的顺序依次排序的步骤;以及对于其中与术语T1的术语综合相似度的数值相同的若干相似术语,进一步结合术语表示模型中的术语所属领域信息C进行排序的步骤。进一步优选的,对于术语T1和术语T2,所述基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤,包括:21)分别将术语T1和术语T2的中文名称切分成字的集合:将术语T1的中文名称T1.t=c1…cm切分成字的集合T1_Set={c1,c2..cm},其中m是T1.t的长度;将术语T2的中文名称T2.t=d1..dn切分成字的集合T2_Set={d1,d2…dn},其中n是T2.t的长度;22)对术语T1和术语T2的中文名称进行相似度计算得到术语中文名称相似度:其中Intersection(T1_set,T2_set)表示括号内两个集合的交集的元素个数,Union(T1_set,T2_set)表示括号内两个集合的并集的元素个数,LCS(T1.t,T2.t)表示括号内两个术语中文名称的最长公共子串,Len()表示括号内串的长度,Max(m,n)表示m,n的最大值,α为第一权值;23)分别将术语T1和术语T2的英文名称切分成2-gram序列集合:将术语T1的英文名称T1.et=w1..wn切分成2-gram序列集合T1_et_set={w1w2,w2w3,…wn-1wn};将术语T2的英文名称T2.et=w1’…wn’切分成2-gram序列集合T2_et_set={w1’w2’,w2’w3’,…,wn-1’wn’};24)对术语T1和术语T2的英文名称进行相似度计算得到术语英文名称相似度:其中Intersection(T1_et_set,T2_et_set)表示括号内两个集合的交集的元素个数,Union(T1_et_set,T2_et_set)表示括号内两个集合的并集的元素个数;25)融合术语中文名称相似度和术语英文名称相似度,得到术语T1和术语T2的术语名称相似度:Simname(T1,T2)=β*Simt(T1.t,T2.t)+(1-β)*Simet(T1.et,T2.et)其中,β为第二权值。进一步优选的,对于术语T1和术语T2,所述基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤,包括:31)对术语T1和术语T2的定义进行相似度计算得到术语定义相似度:其中Same(T1.D,T2.D)表示括号内两个集合中相同词的个数,Union(T1.D,T2.D)表示括号内两个集合中所有不同词的个数;32)对术语T1和术语T2的其它信息进行相似度计算得到术语其它信息相似度:其中Same(T1.N,T2.N)表示括号内两个集合中相同词的个数,Union(T1.N,T2.N)表示括号内两个集合中所有不同词的个数;33)融合术语定义相似度和术语其它信息相似度,得到术语T1和术语T2的术语相关特征相似度:Siminfo(T1,T2)=γ*Sim_D(T1.D,T2.D)+(1-γ)*Sim_N(T1.N,T2.N)其中,γ为第三权值。进一步优选的,所述融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤中,包括对于给定术语T1,遍历术语库Dic中的每一个术语进行相本文档来自技高网...

【技术保护点】
1.一种基于多特征的术语检索方法,其特征在于该方法包括如下步骤:/n建立术语的表示模型结构的步骤;/n基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;/n基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;/n融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;/n融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;/n对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。/n

【技术特征摘要】
1.一种基于多特征的术语检索方法,其特征在于该方法包括如下步骤:
建立术语的表示模型结构的步骤;
基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤;
基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤;
融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤;
融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤;
对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤。


2.根据权利要求1所述的基于多特征的术语检索方法,其特征在于:所述建立术语的表示模型结构的步骤中,基于五元组建立术语的表示模型结构为:
T=<t,et,C,D,N>
其中,t为术语的中文名称;et为术语的英文名称;C为术语的所属领域的信息;D为术语的标准定义;N是其它信息的结合。


3.根据权利要求2所述的基于多特征的术语检索方法,其特征在于:
其中,对于术语T1和术语T2,所述基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤,包括:
分别将术语T1和术语T2的中文名称切分成字的集合,进而对术语T1和术语T2的中文名称进行相似度计算得到术语中文名称相似度的步骤;以及
分别将术语T1和术语T2的英文名称切分成2-gram序列集合,进而对术语T1和术语T2的英文名称进行相似度计算得到术语英文名称相似度的步骤;以及
融合术语中文名称相似度和术语英文名称相似度,得到术语T1和术语T2的术语名称相似度的步骤;
其中,对于术语T1和术语T2,所述基于术语的表示模型,对术语的定义及相关特征进行相似度计算得到术语相关特征相似度的步骤,包括:
对术语T1和术语T2的定义进行相似度计算得到术语定义相似度的步骤;以及
对术语T1和术语T2的其它信息进行相似度计算得到术语其它信息相似度的步骤;以及
融合术语定义相似度和术语其它信息相似度,得到术语T1和术语T2的术语相关特征相似度的步骤。


4.根据权利要求1所述的基于多特征的术语检索方法,其特征在于:所述融合术语名称相似度及术语相关特征相似度,计算得到术语综合相似度的步骤中,对于术语T1和术语T2,所述术语综合相似度为术语名称相似度和术语相关特征相似度的均值。


5.根据权利要求2所述的基于多特征的术语检索方法,其特征在于:
其中,融合术语名称相似度、术语相关特征相似度及术语综合相似度,进行多特征检索得到相似术语的步骤,包括:
对于给定术语T1,遍历术语库Dic中的每一个术语进行相似度判断,直到术语库Dic中所有的术语都判断完毕,得到给定术语T1的相似术语集合resultLst的步骤;
其中,对检索得到的相似术语,结合术语综合相似度和术语所属领域信息进行排序的步骤,包括:
对于给定术语T1,首先按术语T1与resultLst中各相似术语的术语综合相似度从大到小的顺序依次排序的步骤;以及
对于其中与术语T1的术语综合相似度的数值相同的若干相似术语,进一步结合术语表示模型中的术语所属领域信息C进行排序的步骤。


6.根据权利要求2所述的基于多特征的术语检索方法,其特征在于:对于术语T1和术语T2,所述基于术语的表示模型,对术语名称进行相似度计算得到术语名称相似度的步骤,包括:
21)分别将术语T1和术语T2的中文名称切分成字的集合:将术语T1的中文名称T1.t=c1…cm切分成字的集合T1_Set={c1,c2..cm},其中m是T1.t的长度;将术语T2的中文名称T2.t=d1..dn切分成字的集合T2_Set={d1,d2…dn},其中n是T2.t的长度;
22)对术语T1和术语T2的中文名称进行相似度计算得到术语中文名称相似度:



其中Intersection(T1_set,T2_set)表示括号内两个集合的交集的元素个数,Union(T1_set,T2_set)表示括号内两个集合的并集的元素个数,LCS(T1.t,T2.t)表示括号内两个术语中文名称的最长公共子串,Len()表示括号内串的长度,Max(m,n)表示m,n的最大值,α为第一权值;
23)分别将术语T1和术语T2的英文名称切分成2-gram序列集合:将术语T1的英文名称T1.et=w1..wn切分成2-gram序列集合...

【专利技术属性】
技术研发人员:王海涛曹馨宇刘亮亮周长青
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1