一种叙词表自动构建的方法、系统、设备以及计算机存储介质技术方案

技术编号:29526519 阅读:36 留言:0更新日期:2021-08-03 15:12
本申请的提出了一种叙词表自动构建的方法,通过结合同现统计和分布相似度计算,然后对词间的等级关系进行识别,从而编制自然语言叙词表;其中,通过各词自身在文件中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重;再者,构造特征向量,计算语义相似度,从而将各词合并为簇;根据等级系数将簇内的词化到各等级中,并对其识别上下位关系;最后,根据叙词集合的词间相关关系以及上下位关系来构造叙词表。

【技术实现步骤摘要】
一种叙词表自动构建的方法、系统、设备以及计算机存储介质
本申请涉及人工智能领域,具体而言,涉及一种叙词表自动构建的方法、系统、设备以及计算机存储介质。
技术介绍
网络的飞速发展,带来了信息资源的爆炸性增长,为人们提供方便的同时也使人们逐渐意识到被“淹没”在信息的海洋中,如何准确、高效的从海量信息中获取所需的信息成为亟待解决的问题。目前的网络信息检索工具(如搜索引擎等)大多采用基于关键词字面匹配的全文检索方式,这种方法简单可行,查找方便,具有较高的检全率,但检索返回的信息过多,其中只有很少一部分符合检索者的要求,检准率低,同时,也存在漏检和误检现象。利用规范化控制的叙词表,将其应用到标引和检索过程中能有效提高检准率。然而传统叙词表在词表编制和维护,以及在网络信息检索环境中的应用都面临着一定的困难,因而研究如何自动构造自然语言叙词表具有十分重要的意义。当前,如何利用计算机技术自动识别叙词间的等同、等级及相关等语义关系是能否实现叙词表自动构建的一个关键环节,也是一个难点。
技术实现思路
为了解决上述叙词表在词表编制困难的技本文档来自技高网...

【技术保护点】
1.一种叙词表自动构建的方法,其特征在于,所述的方法,包括:/nS1、词汇收集,输入构建叙词表所需的原始数据文件;/nS2、根据所述的原始数据文件抽取各个词,形成一个叙词集合;/nS3、将叙词集合内的词根据各词自身在文件中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;/nS4、根据关联度构造每个词与其他词的特征向量,其中,其他词选择为最相关的K个词;/nS5、对叙词集合的词的层次聚类,根据特征向量,计算各词之间的语义相似度;设定阈值,将语义相似度值小于阈值的词合并形成簇;/nS6、将簇内的词根据等级系数划到各等级中,并识别其上下位关系;/nS7、最后...

【技术特征摘要】
1.一种叙词表自动构建的方法,其特征在于,所述的方法,包括:
S1、词汇收集,输入构建叙词表所需的原始数据文件;
S2、根据所述的原始数据文件抽取各个词,形成一个叙词集合;
S3、将叙词集合内的词根据各词自身在文件中的频率、各词之间的同现频率以及调整因子来计算各词之间的同现权重,从而得到各个词间的关联度;
S4、根据关联度构造每个词与其他词的特征向量,其中,其他词选择为最相关的K个词;
S5、对叙词集合的词的层次聚类,根据特征向量,计算各词之间的语义相似度;设定阈值,将语义相似度值小于阈值的词合并形成簇;
S6、将簇内的词根据等级系数划到各等级中,并识别其上下位关系;
S7、最后,根据叙词集合的词间相关关系以及上下位关系来构造叙词表。


2.如权利要求1所述的方法,其特征在于,所述的各词之间的同现权重,其计算公式为:



其中,W(Ti,Tj)表示词Ti和Tj的同现权重,tf(TiTj)表示词Ti和Tj在语料中的同现频率,tf(Ti)表示词Ti在语料中的频率,WeightingFactor(Ti,Tj)为调整因子;


3.如权利要求2所述的方法,其特征在于,所述的调整因子,其计算公式为:



min(length(di))表示词Ti和Tj同现语料中的最小长度,表示同现语料的平均长度,k为同现语料篇数。


4.如权利要求1所述的方法,其特征在于,所述的特征向量,其计算公式为:
V(T)=(<T1,W1>,<T2,W2>,…,<Tk,Wk>)
其中,T1,T2,…,Tk表...

【专利技术属性】
技术研发人员:张凯周建设刘杰王伟丽
申请(专利权)人:首都师范大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1