基于聚类等级关系自动识别方法、系统、设备及存储介质技术方案

技术编号:27243695 阅读:27 留言:0更新日期:2021-02-04 12:16
本申请的提出了一种基于聚类的词间等级关系自动识别方法,通过结合同现统计和分布相似度计算,然后对词间的等级关系进行识别。其中,通过调整因子对DICE测度的计算方式进行改进;再者,在相似度计算上增加了一个调整系数;然后,将各个词进行聚类,形成簇;根据等级系数将簇内的词化到各等级中,并对其识别上下位关系。系。系。

【技术实现步骤摘要】
基于聚类等级关系自动识别方法、系统、设备及存储介质


[0001]本申请涉及人工智能领域,具体而言,涉及一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。

技术介绍

[0002]网络的飞速发展,带来了信息资源的爆炸性增长,为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中,如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式,这种方法简单可行,查找方便,具有较高的检全率,但检索返回的信息过多,其中只有很少一部分符合检索者的要求,检准率低,同时,也存在漏检和误检现象。利用规范化控制的叙词表,将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护,以及在网络信息检索环境中的应用都面临着一定的困难,因而研究如何自动构造自然语言叙词表具有十分重要的意义。
[0003]因此,如何准确自动识别词间关系,是目前急需解决的技术问题。

技术实现思路

[0004]为了解决上述如何自动识别词间关系的技术问题,本申请提供了一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。
[0005]本申请的第一方面提供了一种基于聚类的词间等级关系自动识别方法,所述方法包括:
[0006]S1、选定文档作为同现窗口,获取文档中的每个词,采用DICE测度对每个词进行关联度计算,并根据同现窗口的大小调整DICE测度的计算结果;
[0007]S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;
[0008]S3、从中选取一个词T,根据词T与其他词的同现权重,抽取与词T最相关的K个词,并构造特征向量;
[0009]S4、对各词通过层次聚类算法进行聚类,将各词单独划分为一簇,计算各个簇之间的语义相似度;设定阈值,将语义相似度小于阈值的簇进行合并,直至所有的词合并为一个大簇;
[0010]S5、将大簇内的词根据等级系数识别其上下位关系。
[0011]优选地,所述的各词之间的同现权重,其计算公式为:
[0012][0013]其中,W(T
i
,T
j
)表示词T
i
和T
j
的同现权重,tf(T
i
T
j
)表示词T
i
和T
j
在文档中的同现频率,tf(T
i
)表示词T
i
在文档中的频率,WeightingFactor(T
i
,T
j
)为调整因子;
[0014]优选地,所述的调整因子,其计算公式为:
[0015][0016]min(length(d
i
))表示词T
i
和T
j
同现文档中的最小长度,表示同现文档的平均长度,k为同现文档篇数。
[0017]优选地,所述的特征向量,其计算公式为:
[0018]V(T)=(<T1,W1>,<T2,W2>,

,<T
k
,W
k
>)
[0019]其中,T1,T2,

,T
k
表示与词T相关的词,W1,W2,

,W
k
分别为词T与T1,T2,

,T
k
的同现权重。
[0020]优选地,所述的语义相似度,其计算公式为:
[0021][0022]其中,Sim(T1,T2)表示词T1和T2的语义相似度,W
1i
表示词T1的特征向量第i维的值,W
2i
表示词T2的特征向量第i维的值,k表示特征向量的维数,n表示特征向量中相同词的个数。
[0023]优选地,所述的等级系数,其计算公式为:
[0024][0025]H(T
i
)是词T
i
的等级系数,tf(T
i
)表示词T
i
的词频,len(T
i
)表示词长。
[0026]优选地,所述的层次聚类算法,包括:单连通、全连通以及平均连通。
[0027]优选地,所述的层次聚类算法优选为平均连通。
[0028]优选地,所述的阈值为0.1。
[0029]优选地,所述的识别簇内的词上下位关系,其算法流程为:
[0030]S501、确定等级数,将簇内的词按等级系数归入到各词级中;等级系数高的词位于高词级中,最高词级为L0,其余依次为L1,L2,

,L
i

[0031]S502、在相邻词级间产生上下位关系。取词级L
i
中的一个词T,计算词T与词级L
i-1
中的每个词的相似度,取相似度最大的词作为词T的上位词;继续从词级L
i
中取词,直至为L
i
中所有的词建立上下位关系;检查词级L
i-1
中的词,将没有下位词的词移至词级L
i

[0032]S503、判断是否到达底层,是则结束,否则继续执行S502的操作。
[0033]本申请第二方面提供一种基于聚类的词间等级关系自动识别的系统,其特征在于,所述系统,包括:文档获取模块,划分词语模块,计算模块,结果显示模块,其中:
[0034]文档获取模块,用于获取文档,从而进行词间等级关系识别;
[0035]划分词语模块,用于获取文档内的各个词;
[0036]计算模块,实现如前所述的确定各词间关系的计算方式,从而确定各个词的词间等级关系;
[0037]结果显示模块,用于显示各个词的词间等级关系。
[0038]本申请第三方面提供一种基于聚类的词间等级关系自动识别的设备,其特征在于,所述设备包括:
[0039]存储有可执行程序代码的存储器;
[0040]与所述存储器耦合的处理器;
[0041]所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前所述的方法。
[0042]本申请的第四方面提供了一种计算机存储介质,其特征在于,所述存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如前所述的方法。
[0043]本专利技术的有益效果在于:
[0044]通过同现分析计算词间的相关度,可以识别出无字面相似特征的词间的相似性;在此基础上,运用等级识别方法,基本上可以将表达不同主题范畴的词区分开来,生成的词簇分布较均匀,簇内词间相似度较高;采用的等级识别算法,基本上可以将簇内的词归入到不同的等级中,再经过人工判定和调整即可确本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的词间等级关系自动识别方法,应用于电子设备,其特征在于,所述自动识别方法,包括:S1、选定文档作为同现窗口,获取文档中的每个词,采用DICE测度对每个词进行关联度计算,并根据同现窗口的大小调整DICE测度的计算结果;S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;S3、从中选取一个词T,根据词T与其他词的同现权重,抽取与词T最相关的K个词,并构造特征向量;S4、对各词通过层次聚类算法进行聚类,将各词单独划分为一簇,计算各个簇之间的语义相似度;设定阈值,将语义相似度小于阈值的簇进行合并,直至所有的词合并为一个大簇;S5、将簇内的词根据等级系数划到各等级中,并识别其上下位关系。2.如权利要求1所述的方法,其特征在于,所述的各词之间的同现权重,其计算公式为:其中,W(T
i
,T
j
)表示词T
i
和T
j
的同现权重,tf(T
i
T
j
)表示词T
i
和T
j
在文档中的同现频率,tf(T
i
)表示词T
i
在文档中的频率,WeightingFactor(T
i
,T
j
)为调整因子。3.如权利要求2所述的方法,其特征在于,所述的调整因子,其计算公式为:min(length(d
i
))表示词T
i
和T
j
同现文档中的最小长度,表示同现文档的平均长度,k为同现文档篇数。4.如权利要求1所述的方法,其特征在于,所述的特征向量,其计算公式为:V(T)=(<T1,W1>,<T2,W2>,

,<T
k
,W
k
>)其中,T1,T2,

【专利技术属性】
技术研发人员:张凯刘杰周建设赵晴
申请(专利权)人:首都师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1