基于聚类等级关系自动识别方法、系统、设备及存储介质技术方案

技术编号：27243695 阅读：27 留言：0更新日期：2021-02-04 12:16

本申请的提出了一种基于聚类的词间等级关系自动识别方法，通过结合同现统计和分布相似度计算，然后对词间的等级关系进行识别。其中，通过调整因子对DICE测度的计算方式进行改进；再者，在相似度计算上增加了一个调整系数；然后，将各个词进行聚类，形成簇；根据等级系数将簇内的词化到各等级中，并对其识别上下位关系。系。系。

全部详细技术资料下载

【技术实现步骤摘要】
基于聚类等级关系自动识别方法、系统、设备及存储介质

[0001]本申请涉及人工智能领域，具体而言，涉及一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。

技术介绍

[0002]网络的飞速发展，带来了信息资源的爆炸性增长，为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中，如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式，这种方法简单可行，查找方便，具有较高的检全率，但检索返回的信息过多，其中只有很少一部分符合检索者的要求，检准率低，同时，也存在漏检和误检现象。利用规范化控制的叙词表，将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护，以及在网络信息检索环境中的应用都面临着一定的困难，因而研究如何自动构造自然语言叙词表具有十分重要的意义。
[0003]因此，如何准确自动识别词间关系，是目前急需解决的技术问题。

技术实现思路

[0004]为了解决上述如何自动识别词间关系的技术问题，本申请提供了一种基于聚类的词间等级关系自动识别方法、系统、设备以及计算机存储介质。
[0005]本申请的第一方面提供了一种基于聚类的词间等级关系自动识别方法，所述方法包括：
[0006]S1、选定文档作为同现窗口，获取文档中的每个词，采用DICE测度对每个词进行关联度计算，并根据同现窗口的大小调整DICE测度的计算结果；
[0007]S2、根据各词自身...

【技术保护点】

【技术特征摘要】
1.一种基于聚类的词间等级关系自动识别方法，应用于电子设备，其特征在于，所述自动识别方法，包括：S1、选定文档作为同现窗口，获取文档中的每个词，采用DICE测度对每个词进行关联度计算，并根据同现窗口的大小调整DICE测度的计算结果；S2、根据各词自身在文档中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重，从而得到各个词间的关联度；S3、从中选取一个词T，根据词T与其他词的同现权重，抽取与词T最相关的K个词，并构造特征向量；S4、对各词通过层次聚类算法进行聚类，将各词单独划分为一簇，计算各个簇之间的语义相似度；设定阈值，将语义相似度小于阈值的簇进行合并，直至所有的词合并为一个大簇；S5、将簇内的词根据等级系数划到各等级中，并识别其上下位关系。2.如权利要求1所述的方法，其特征在于，所述的各词之间的同现权重，其计算公式为：其中，W(T
i
,T
j
)表示词T
i
和T
j
的同现权重，tf(T
i
T
j
)表示词T
i
和T
j
在文档中的同现频率，tf(T
i
)表示词T
i
在文档中的频率，WeightingFactor(T
i
,T
j
)为调整因子。3.如权利要求2所述的方法，其特征在于，所述的调整因子，其计算公式为：min(length(d
i
))表示词T
i
和T
j
同现文档中的最小长度，表示同现文档的平均长度，k为同现文档篇数。4.如权利要求1所述的方法，其特征在于，所述的特征向量，其计算公式为：V(T)＝(<T1,W1>,<T2,W2>,
…
,<T
k
,W
k
>)其中，T1，T2，

【专利技术属性】
技术研发人员：张凯，刘杰，周建设，赵晴，
申请(专利权)人：首都师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人