词义消歧的方法及装置制造方法及图纸

技术编号:38896930 阅读:10 留言:0更新日期:2023-09-22 14:18
本申请提供一种词义消歧的方法及装置,其中该方法,包括:基于RPA知识图谱,确定待消歧文本中存在的待消歧实体,以及对应的候选实体列表;基于候选实体列表中每个候选实体,和待消歧实体,通过RPA特征提取,确定候选实体对应的嵌入特征,和待消歧实体对应的嵌入特征;基于词义消歧模型,每个候选实体对应的嵌入特征,以及待消歧实体对应的嵌入特征,确定待消歧实体是否和候选实体为同一个实体。本申请通过综合实体嵌入特征、实体上下文嵌入特征和词语嵌入特征,实现对待消歧文本和候选文本嵌入特征的比对,确定待消歧实体是否和候选实体为同一个实体,获取的文本信息更丰富和全面,有利于准确分析文本词义,提升词义消歧准确率。提升词义消歧准确率。提升词义消歧准确率。

【技术实现步骤摘要】
词义消歧的方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种词义消歧的方法及装置。

技术介绍

[0002]随着人工智能技术的迅速发展,对让计算机更准确识别人类语言的相关研究也越来越多。
[0003]而现有的识别技术中,对传统词义消歧多采用候选文本与待消歧文本之间的语义相似度实现,并且以字为单位进行分析,对候选文本与待消歧文本自身内的相关特征分析较为单薄,且特征提取方法较为单一,而且需要大量的训练样本,不利于应用于小规模标记样本的场景,在语料指令差或者信息缺失的情况下,性能下降明显。如何充分的提取文本的相关信息,并结合提取的相关信息,自动高效地对文本中词义进行消歧,成为业界当前亟需攻克的难题。

技术实现思路

[0004]针对现有技术存在的问题,本申请提供一种词义消歧的方法及装置。
[0005]第一方面,本申请提供一种词义消歧的方法,包括:
[0006]基于RPA知识图谱,确定待消歧文本中存在的待消歧实体,以及对应的候选实体列表;
[0007]基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过RPA特征提取,确定所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征;
[0008]基于词义消歧模型,每个所述候选实体对应的嵌入特征,以及所述待消歧实体对应的嵌入特征,确定所述待消歧实体是否和所述候选实体为同一个实体;
[0009]其中,所述嵌入特征包括:实体嵌入特征、实体上下文嵌入特征和词语嵌入特征。
[0010]可选地,所述基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过RPA特征提取,确定每个所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征,包括:
[0011]基于改进后的BERT字典,分别确定所述候选实体文本对应的索引编码序列,作为所述候选实体文本的词语嵌入特征,和所述待消歧文本对应的索引编码序列,作为所述待消歧文本对应的词语嵌入特征;所述候选实体文本是基于所述候选实体列表中任一候选实体以及RPA知识图谱确定的;
[0012]基于实体嵌入模型和RPA知识图谱,确定每个所述候选实体对应的实体嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体嵌入特征;
[0013]基于RPA知识图谱和距离权重算法,确定每个所述候选实体对应的实体上下文嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体上下文嵌入特征。
[0014]可选地,所述基于改进后的BERT字典,分别确定所述候选实体文本对应的索引编码序列,作为所述候选实体文本的词语嵌入特征,和所述待消歧文本对应的索引编码序列,
作为所述待消歧文本对应的词语嵌入特征,包括:
[0015]分别对所述候选实体文本和所述待消歧文本进行预分词,确定第一预分词集合,和第二预分词集合;
[0016]基于改进后的BERT字典,确定所述第一预分词集合对应的索引编码序列,和所述第一预分词集合对应的索引编码序列。
[0017]可选地,所述实体嵌入模型基于如下方法训练得到:
[0018]基于TranSparse方法,确定第一损失函数中的第一空间向量和第二空间向量;所述第一空间向量是RPA知识图谱中每个实体间关系下头实体和实体间关系的空间向量,所述第二空间向量是RPA知识图谱中每个实体间关系下尾实体和实体间关系的空间向量;
[0019]基于所述第一损失函数,以及构建的第一样本数据和第二样本数据,确定第一损失函数值;
[0020]在所述第一损失函数值小于第一阈值的情况下,得到所述实体嵌入模型。
[0021]可选地,所述基于实体嵌入模型和RPA知识图谱,确定所述候选实体对应的实体嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体嵌入特征,包括:
[0022]基于RPA知识图谱,确定所述候选实体存在对应实体间关系的第一集合,和/或所述待消歧实体文本中已确定的实体存在对应实体间关系的第二集合;所述第一集合包括与所述候选实体存在实体间关系的所有实体和对应的实体间关系,所述第二集合包括与所述待消歧实体文本中以确定的实体存在实体间关系的所有实体和对应的实体间关系;
[0023]基于实体嵌入模型,确定所述的第一集合对应的第一空间向量的值和第二空间向量的值,作为所述候选实体对应的实体嵌入特征,和/或,确定所述的第二集合对应的第一空间向量的值和第二空间向量的值,作为所述待消歧文本中已确定的实体对应的实体嵌入特征。
[0024]可选地,所述基于RPA知识图谱和距离权重算法,确定每个所述候选实体对应的实体上下文嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体上下文嵌入特征,包括:
[0025]基于RPA知识图谱,确定每个所述候选实体对应的第一知识图谱子图,和/或所述待消歧文本中已确定的实体对应的第二知识图谱子图;
[0026]基于所述第一知识图谱子图以及距离权重算法,确定所述候选实体对应的实体上下文嵌入特征,和/或基于所述第二知识图谱子图以及距离权重算法,确定所述待消歧文本中已确定的实体对应的实体上下文嵌入特征。
[0027]可选地,所述基于词义消歧模型,每个所述候选实体对应的嵌入特征,以及所述待消歧实体对应的嵌入特征,确定所述待消歧实体是否和所述候选实体为同一个实体,包括:
[0028]基于所述词义消歧模型,确定所述候选实体文本和所述待消歧文本的相似度;所述候选实体文本是基于所述候选实体列表中任一候选实体以及RPA知识图谱确定的;
[0029]基于预设置信度规则,以及所述候选实体文本和所述待消歧文本的相似度,确定所述待消歧实体是否和所述候选实体为同一个实体。
[0030]可选地,所述词义消歧模型是基于如下方法训练得到:
[0031]基于预设的掩码规则,以及构建的第一样本数据和第二样本数据,确定用于训练词义消歧模型的第三样本数据和第四样本数据;
[0032]基于第二损失函数,以及所述第三样本数据和第四样本数据,确定第二损失函数值;所述第二损失函数为改进的交叉熵损失函数;
[0033]在所述第二损失函数值小于第二阈值的情况下,得到所述词义消歧模型。
[0034]可选地,所述第一样本数据是基于RPA知识图谱的三元组通过标记得到;所述第二样本数据是将所述第一样本中任一实体关系对应的头实体或尾实体,替换成不同实体间关系对应的头实体或尾实体得到。
[0035]可选地,所述改进的交叉熵损失函数是基于BERT中的交叉损失函数确定的。
[0036]可选地,所述基于预设置信度规则,以及所述候选实体文本和所述待消歧文本的相似度,确定所述待消歧实体是否和所述候选实体为同一个实体,包括:
[0037]若所述相似度满足所述预设置信度规则,则确定所述待消歧实体和所述候选实体是同一个实体;
[0038]若所述相似度不满足所述预设置信度规则,则确定所述待消歧实体和所述候选实体不是同一个实体。
[0039]可选地,所述基于预设置信本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种词义消歧的方法,其特征在于,包括:基于RPA知识图谱,确定待消歧文本中存在的待消歧实体,以及对应的候选实体列表;基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过RPA特征提取,确定所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征;基于词义消歧模型,每个所述候选实体对应的嵌入特征,以及所述待消歧实体对应的嵌入特征,确定所述待消歧实体是否和所述候选实体为同一个实体;其中,所述嵌入特征包括:实体嵌入特征、实体上下文嵌入特征和词语嵌入特征。2.根据权利要求1所述的词义消歧的方法,其特征在于,所述基于所述候选实体列表中每个候选实体,和所述待消歧实体,通过RPA特征提取,确定每个所述候选实体对应的嵌入特征,和所述待消歧实体对应的嵌入特征,包括:基于改进后的BERT字典,分别确定所述候选实体文本对应的索引编码序列,作为所述候选实体文本的词语嵌入特征,和所述待消歧文本对应的索引编码序列,作为所述待消歧文本对应的词语嵌入特征;所述候选实体文本是基于所述候选实体列表中任一候选实体以及RPA知识图谱确定的;基于实体嵌入模型和RPA知识图谱,确定每个所述候选实体对应的实体嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体嵌入特征;基于RPA知识图谱和距离权重算法,确定每个所述候选实体对应的实体上下文嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体上下文嵌入特征。3.根据权利要求2所述的词义消歧的方法,其特征在于,所述基于改进后的BERT字典,分别确定所述候选实体文本对应的索引编码序列,作为所述候选实体文本的词语嵌入特征,和所述待消歧文本对应的索引编码序列,作为所述待消歧文本对应的词语嵌入特征,包括:分别对所述候选实体文本和所述待消歧文本进行预分词,确定第一预分词集合,和第二预分词集合;基于改进后的BERT字典,确定所述第一预分词集合对应的索引编码序列,和所述第一预分词集合对应的索引编码序列。4.根据权利要求2所述的词义消歧的方法,其特征在于,所述实体嵌入模型基于如下方法训练得到:基于TranSparse方法,确定第一损失函数中的第一空间向量和第二空间向量;所述第一空间向量是RPA知识图谱中每个实体间关系下头实体和实体间关系的空间向量,所述第二空间向量是RPA知识图谱中每个实体间关系下尾实体和实体间关系的空间向量;基于所述第一损失函数,以及构建的第一样本数据和第二样本数据,确定第一损失函数值;在所述第一损失函数值小于第一阈值的情况下,得到所述实体嵌入模型。5.根据权利要求4所述的词义消歧的方法,其特征在于,所述基于实体嵌入模型和RPA知识图谱,确定所述候选实体对应的实体嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体嵌入特征,包括:基于RPA知识图谱,确定所述候选实体存在对应实体间关系的第一集合,和/或所述待消歧实体文本中已确定的实体存在对应实体间关系的第二集合;所述第一集合包括与所述
候选实体存在实体间关系的所有实体和对应的实体间关系,所述第二集合包括与所述待消歧实体文本中以确定的实体存在实体间关系的所有实体和对应的实体间关系;基于实体嵌入模型,确定所述的第一集合对应的第一空间向量的值和第二空间向量的值,作为所述候选实体对应的实体嵌入特征,和/或,确定所述的第二集合对应的第一空间向量的值和第二空间向量的值,作为所述待消歧文本中已确定的实体对应的实体嵌入特征。6.根据权利要求2所述的词义消歧的方法,其特征在于,所述基于RPA知识图谱和距离权重算法,确定每个所述候选实体对应的实体上下文嵌入特征,和/或所述待消歧文本中已确定的实体对应的实体上下文嵌入特征,包括:基于RPA知...

【专利技术属性】
技术研发人员:黄彩云张毅陈信宇赵康辉高铭泽符殷铭孙昊赵思远
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1