基于贝叶斯网络的同义词判断方法及其装置制造方法及图纸

技术编号:36106279 阅读:10 留言:0更新日期:2022-12-28 14:07
本发明专利技术涉及一种基于贝叶斯网络的同义词判断方法及其装置。该方法包括:数据预处理步骤,对于待消歧词进行特征提取,获得特征变量;贝叶斯网络训练步骤,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及同义词判断步骤,基于所述同义词概率进行同义词判断。基于所述同义词概率进行同义词判断。基于所述同义词概率进行同义词判断。

【技术实现步骤摘要】
基于贝叶斯网络的同义词判断方法及其装置


[0001]本专利技术涉及计算机技术,具体地涉及一种基于贝叶斯网络的同义词判断方法以及基于贝叶斯网络的同义词判断装置。

技术介绍

[0002]在科技情报分析工作中,需要对科技文献中的主题、人名、作者单位等知识实体进行抽取,由于知识实体间常出现同义词,需要人工比对,使图数据库构建常常花费很长时间。上述人工比对的过程即为共指消解,其旨在识别指向同一实体的不同表述,是一个NP

hard问题(NP

hard,指所有NP问题都能在多项式时间复杂度内归遇到的问题),对知识图谱构建、语义搜索、知识问答、推荐系统等应用均有重要的意义。
[0003]现有的共指消解方法主要基于预训练语言模型,主要分为单词特征提取、指称词特征提取、指称词判断、共指关系预测四个阶段。在上述方法中的关键阶段是通过所生成的词向量判断词对的相关度,其效果完全取决于预训练语言模型的训练效果,具有很大的不确定性。具体地,例如存在以下缺点:预训练模型是生成词向量的基础,而目前的主要预训练模型(如BERT、GPT

2等)是基于通用领域语料训练而得到。科技文献中存在大量不同领域内的专业词汇,以及人名、作者单位等专有名词,现有的预训练语言模型难以有效区分;预训练模型可以通过再次预训练和微调的方式提升其在垂直领域的辨识度,但该过程需要大量计算资源和语料库资源;通过预训练模型得到词向量后即能够判断词对是否为同义词,但对结果的解释性较差,模型效果优化改进的方向、方法都不明确,这导致预训练模型在垂直领域的针对性优化效果具有很大不确定性。

技术实现思路

[0004]鉴于上述问题,本专利技术旨在提出一种能够区分专用名词并且能够节省计算资源和语料库资源的基于贝叶斯网络的同义词判断方法以及基于贝叶斯网络的同义词判断装置。
[0005]本专利技术一方面的基于贝叶斯网络的同义词判断方法包括:数据预处理步骤,对于待消歧词进行特征提取,获得特征变量;贝叶斯网络训练步骤,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及同义词判断步骤,基于所述同义词概率进行同义词判断。
[0006]可选地,所述预先训练好的贝叶斯网络模型通过以下步骤训练得到:收集主题词;对于所述主题词进行特征提取,获得各个主题词的特征变量;
根据所述主题词的特征变量,计算得到主题词对间的相同特征的规定的相似度;将所述主题词对间的相同特征的规定的相似度离散化,得到主题词对间的相似度级别;以及对于主题词对间标注主题词对间的同义词的概率,将所述主题词对间的相似度级别以及所述主题词对间的同义词的概率作为训练样本集,根据所述训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络模型。
[0007]可选地,所述规定的相似度是以下的任意一种:余弦相似度、Jaccard相似度、对数似然相似度。
[0008]可选地,根据所述训练样本集使用规定的学习算法对网络结构进行学习得到贝叶斯网络模型包括:根据训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络结构的有向无环图;以及采用对所述训练样本集中的训练样本进行计数的方法得到各节点参数。
[0009]可选地,所述规定的学习算法为采用使用基于依赖性统计分析的学习算法或者基于评分搜索的学习算法。
[0010]可选地,所述特征变量包括:用于表示组成词的字符和字符的次序以及属性的单独词特征;用于表示文本中待消歧词周边的词特征的上下文特征;以及用于表示待消歧词所在文本的结构化信息的文本标签特征。
[0011]可选地,通过以下任意一种方法提取所述上下文特征:词频次、TF

IDF权重、互信息以及N

Gram。
[0012]可选地,通过以下任意一种方法提取所述文本标签特征:词频次、TF

IDF权重、互信息以及N

Gram。
[0013]可选地,所述规定的算法为以下的任意一种算法:PC算法、TPDA算法、MDL算法以及K2算法。
[0014]可选地,所述预先训练好的贝叶斯网络模型通过以下步骤训练得到:随机选取规定数量的主题词;计算所有主题词的字向量间的Jaccard相似度,对于所述字向量间的Jaccard相似度大于规定阈值作为经筛选的主题词对,对于所述经筛选的主题词对标注主题词对间的同义词的概率;对于所述经筛选的主题词对,计算各个主题词所在句子词向量、主题词所在句子词向量、主题词出现的作者姓名词向量、主题词出现机构词向量、主题词出现分类号词向量、主题词相关论文发表时间词向量的6个特征变量;计算主题词对间的所述6个特征的余弦相似度;将所述6个特征的余弦相似度进行离散化得到主题词对间的相似度级别;以及将所述主题词对间的相似度级别以及所述标注的主题词对间的同义词的概率作为训练样本集,根据所述训练样本集使用K2算法进行贝叶斯网络结构的学习得到贝叶斯网络模型。
[0015]可选地,所述进行贝叶斯网络结构的学习包括:
假设所述Jaccard相似度和所述6个特征的余弦相似度存在依赖关系,用连接边表示,建立完全潜在图,得到相似度的概率;对所述完全潜在图进行修剪以降低计算复杂度;设定输入初始的变量顺序和变量父节点的上限值k,其中k取值为小于7的自然数;对于每一个节点,从空节点集开始,依据修剪后的潜在图计算候选父节点组合的K2评分,逐步增加父节点的数目,当增加了父节点的数目而评分值不增加或者父节点数目达到k个时,算法结束;在上述网络结构基础上进行参数学习,根据所述得到的相似度的概率,学习各个节点的条件概率分布表;以及更改初始变量顺序,对贝叶斯网络进行多次训练,选择准确率最高的网络结构,并按照训练样本集估计参数。
[0016]本专利技术一方面的基于贝叶斯网络的同义词判断装置包括:数据预处理模块,对于待消歧词进行特征提取并获得特征变量;贝叶斯网络训练模块,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及同义词判断模块,基于所述同义词概率进行同义词判断。
[0017]可选地,所述数据预处理模块包括:单独词特征提取子模块,用于对于被输入的词进行特征提取以提取表示组成词的字符和字符的次序以及属性的单独词特征;上下文特征提取子模块,用于对于被输入的词进行特征提取以提取表示文本中待消歧词周边的词特征的上下文特征;以及文本标签特征提取子模块,用于对于被输入的词进行特征提取以提取表示待消歧词所在文本的结构化信息的文本标签特征。
[0018]可选地,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于贝叶斯网络的同义词判断方法,其特征在于,包括:数据预处理步骤,对于待消歧词进行特征提取,获得特征变量;贝叶斯网络训练步骤,根据所述待消歧词的特征变量计算得到待消歧词间的相似度,将计算得到的待消歧词间的相似度进行离散化得到待消歧词间的相似度级别,将所述待消歧词间的相似度级别输入到预先训练好的贝叶斯网络模型,利用所述贝叶斯网络模型得到与所述待消歧词间的相似度级别相对应的同义词概率;以及同义词判断步骤,基于所述同义词概率进行同义词判断。2.如权利要求1所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述预先训练好的贝叶斯网络模型通过以下步骤训练得到:收集主题词;对于所述主题词进行特征提取,获得各个主题词的特征变量;根据所述主题词的特征变量,计算得到主题词对间的相同特征的规定的相似度;将所述主题词对间的相同特征的规定的相似度离散化,得到主题词对间的相似度级别;以及对于主题词对间标注主题词对间的同义词的概率,将所述主题词对间的相似度级别以及所述主题词对间的同义词的概率作为训练样本集,基于所述训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络模型。3.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述规定的相似度是以下的任意一种:余弦相似度、Jaccard相似度、对数似然相似度。4.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,根据所述训练样本集使用规定的学习算法对网络结构进行学习得到贝叶斯网络模型包括:根据训练样本集使用规定的学习算法对网络结构进行学习,得到贝叶斯网络结构的有向无环图;以及采用对所述训练样本集中的训练样本进行计数的方法得到各节点参数。5.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述规定的学习算法为采用使用基于依赖性统计分析的学习算法或者基于评分搜索的学习算法。6.如权利要求1所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述特征变量包括:用于表示组成词的字符和字符的次序以及属性的单独词特征;用于表示文本中待消歧词周边的词特征的上下文特征;以及用于表示待消歧词所在文本的结构化信息的文本标签特征。7.如权利要求6所述的基于贝叶斯网络的同义词判断方法,其特征在于,通过以下任意一种方法提取所述上下文特征:词频次、TF

IDF权重、互信息以及N

Gram。8.如权利要求6所述的基于贝叶斯网络的同义词判断方法,其特征在于,通过以下任意一种方法提取所述文本标签特征:词频次、TF

IDF权重、互信息以及N

Gram。
9.如权利要求5所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述规定的算法为以下的任意一种算法:PC算法、TPDA算法、MDL算法以及K2算法。10.如权利要求2所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述预先训练好的贝叶斯网络模型通过以下步骤训练得到:随机选取规定数量的主题词;计算所有主题词的字向量间的Jaccard相似度,对于所述字向量间的Jaccard相似度大于规定阈值作为经筛选的主题词对,对于所述经筛选的主题词对标注主题词对间的同义词的概率;对于所述经筛选的主题词对,计算各个主题词所在句子词向量、主题词所在句子词向量、主题词出现的作者姓名词向量、主题词出现机构词向量、主题词出现分类号词向量、主题词相关论文发表时间词向量的6个特征变量;计算主题词对间的所述6个特征的余弦相似度;将所述6个特征的余弦相似度进行离散化得到主题词对间的相似度级别;以及将所述主题词对间的相似度级别以及所述标注的主题词对间的同义词的概率作为训练样本集,根据所述训练样本集使用K2算法进行贝叶斯网络结构的学习得到贝叶斯网络模型。11.如权利要求10所述的基于贝叶斯网络的同义词判断方法,其特征在于,所述进行贝叶斯网络结构的学习包括:假设所述Jaccard相似度和所述6个特征的余弦相似度存在依赖关系,用连接边表示,建立完全潜在图,得到相似度的概率;对所述完全潜在图进行修剪以降低计算复杂度;设定输入初始的变量顺序和变量父节点的上限值k,其中k取值为小于7的自然数;对于每一个节点,从空节...

【专利技术属性】
技术研发人员:彭树远才华
申请(专利权)人:中国银联股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1