System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种中文短文本实体链接方法技术_技高网

一种中文短文本实体链接方法技术

技术编号:40404425 阅读:5 留言:0更新日期:2024-02-20 22:27
本发明专利技术公开一种中文短文本实体链接方法,通过PET的方法对上下文、实体描述进行编码,得到嵌入表示,并构建正样本对,利用对比学习方法进行训练,挖掘知识库中实体的潜在相关关系,并使用两种负样本进行二次训练,利用嵌入的点积作为相似度得分进行实体链接。包括:候选实体生成阶段,负责计算指称与候选实体名称和候选实体描述之间的相似度得分,并通过加权求和的方法计算最后的相似度得分,得到候选实体集合;候选实体排名阶段,负责获取指称和实体的嵌入表示,再利用对比学习的思想进行训练,计算嵌入表示间的点积作为相似度得分,进行实体链接。本发明专利技术通过构造基于PET和对比学习的方法,为中文短文本实体链接提供了新的设计思路。

【技术实现步骤摘要】

本专利技术属于自然语言处理领域,尤其针对中文短文本的实体链接。


技术介绍

1、在知识库(knowledge base,kb)中,更多的知识是以文本的形式呈现的,这些文本中包含了大量命名实体(entity),例如:人、地点和组织,每个实体都有对应的属性和描述,这些实体是知识库的基本元素。在自然语言中出现的实体被称为实体指称,简称指称(mention)。在许多情况下,这些指称的含义非常模糊,特别是在一句话中,命名实体频繁出现的情况下,一个命名实体可以有多个指称,一个指称也可以表示多个不同的命名实体。实体链接的目的除了增强计算机对自然语言的理解,同时可以帮助大规模知识库的建设和维护,丰富知识库包含实体,有关实体的信息以及实体之间的信息。

2、传统的实体链接方法依赖于强大的有监督数据,例如别名表、结构化数据,用于特征工程或表示学习,也依赖于复杂的特征工程,包含手工特征和统计特征,并且制定了一系列基于语言体系的规则。但是现有的实体链接模型仅关注指称和候选实体之间的相似性,而忽略了候选实体之间的相关关系。并且随着以短文本为体裁的应用不断兴起,对短文本实体链接的需求也井喷式增长。

3、相对于长文本,一些短文本甚至缺失上下文信息,并伴有大量噪声,这导致一些模型很难学到短文本中的上下文特征。此外,与英文不同,中文单词可以由多个字符组成,并且字符或词语之间不存在空格,所以中文实体链接技术不可避免地需要解决分词问题。除此之外,目前还没有完全可访问的高质量中文知识库,导致中文实体链接系统发展滞后。目前中文短文本应用场景广泛但中文短文本实体链接的研究较少,并且构建指称和实体的嵌入方法较为单一,不能兼顾上下文语义和序列位置信息。


技术实现思路

1、本专利技术提出一种中文短文本实体链接方法和装置,融合bert语义相似度和基于规则的文本相似度,得到候选实体集合,并通过pet对遮挡语言模型进行微调得到指称和实体嵌入表示,再利用对比学习的思想进行训练,得到嵌入表示的相似度得分,进行实体链接。

2、本专利技术提供一种中文短文本实体链接方法,包括以下步骤:

3、1)使用bert生成词嵌入计算指称与候选实体名称的嵌入相似度;

4、2)基于所述嵌入相似度,计算候选实体描述之间的相似度得分,利用两部分相似度得分计算得到最后的相似度得分,得到候选实体集合;

5、3)基于模板训练方法,将指称和候选实体名称分别使用特殊遮挡标识[mask]进行遮挡;所述预测特殊遮挡标识[mask]位置的词嵌入作为指称、实体表示,得到指称嵌入和候选实体名称嵌入;

6、4)将所述指称嵌入和实体名称嵌入作为正样本对,随机指称样本对作为负样本进行一次训练,将所述候选实体作为负样本进行二次训练,得到实体链接模型。

7、进一步地,所述行为依赖候选实体集合构建、pet的方法和对比学习的思想,包括:

8、a)候选实体生成是指通过给定一个实体指称项,然后根据知识、规则等信息找到实体指称项对应的候选实体列表。候选实体集合的质量主要由两个因素决定:(1)是否包含目标实体;(2)候选实体的数目;

9、b)多种粒度的分词模式下的字符串匹配是指将指称字符串与实体名称和实体别名进行基于相似度的检索,得到相似度得分记为sfc(1,1),将指称字符串与实体描述文本进行基于相似度的检索,得到相似度得分记为sfc(1,2),通过sfc1=sfc(1,1)+sfc(1,2)得到分词模式下的字符串匹配得分。并应用于不同分词模式,从而得到多个字符串相似度{sfc}。其中,符号fc1,fc2,fc3分别对应的分词模式为全模式、精确模式、和搜索引擎模式三种分词方法。其中,全模式匹配所有可能组成的词语,精确模式选择最恰当的组词、搜索引擎模式在精确模式的基础上,对长词再次进行切分;

10、c)pet的方法通过将遮挡住的词语进行预测的方法,对上下文和实体文本编码为嵌入表示,既能够准确表达指定位置的指称和实体字段,也能够充分利用上下文中的语义信息;

11、d)基于模板开发训练的对比学习模型训练要能在在正负样本间学习知识库中所有实体的相关关系,挖掘出实体间的潜在语义联系。在一个批次batch={<embmm1,embme1>,<embmm2,embme2>,...,<embmmn,embmen>}中,n表示该批次中指称和链接目标实体的个数。对于遮挡了指称的上下文embmm1来说,所对应的链接目标实体embmm2是其正样本,其他指称嵌入{embmm2,...,embmmn}和对应的链接目标实体名称嵌入{embme2,...,embmen}都为负样本。对于实体嵌入embme1来说,对应的指称嵌入embmm1是正样本,其他指称嵌入和实体名称嵌入都是负样本;

12、e)在对比学习中,有一个重要的参数,温度系数,它的作用是让模型更关注与并没有远离的负样本,而非已经足够远的样本,对于本文中,预训练模型所输出的嵌入矩阵ypred,计算损失值的方法如下:

13、

14、其中,表示模型预测第i个样本为正样本的概率,yi表示第i

15、个样本的标签值,在一个批次中,有n个候选实体样本。进一步地,步骤1)中将语料中的符号编码和语言编码进行了统一,保留了可识别的文本内容。例如,形如“{′predicate′:′首播时间′,′object′:′2018年2月7日′},{′predicate′:′摘要′,′object′:′《圣途》是由李阳执导的五集大型纪录片。'}”的原始数据内容,经过预处理阶段,被处理为如下文本:“首播时间,2018年2月7日,摘要,《圣途》是由李阳执导的五集大型纪录片。”;

16、进一步地,步骤1)中针对短文本口语化严重,错别字过多,如“冬奥”被误写为“冬奥”,“美国”被改写为“米国”等问题,考虑了三种匹配模式,包括拼音全拼匹配、拼音首字母缩写匹配和多种粒度的分词模式下的字符串匹配;

17、进一步地,步骤2)中为了增加模型的准确率,本文使用两种负样本构造方式,进行二次训练,两次训练中,负样本分别为随机样本对,和<指称,候选实体>样本对,对指称和实体描述的句嵌入之间的匹配程度进行训练,得到最后的实体链接模型。

18、一种中文短文本实体链接装置,包括:

19、嵌入相似度计算模块,用于计算指称与候选实体名称的嵌入相似度;

20、候选实体集合获取模块,用于所述嵌入相似度和候选实体描述之间的相似度计算得到最后的相似度得分,得到候选实体集合;

21、嵌入获取模块,用于构建指称嵌入和实体名称嵌入;

22、模型训练模块,用于将指称嵌入和实体名称嵌入作为正样本对,随机指称样本对和得到的候选实体集合分别作为负样本进行两次训练,得到实体链接模型。

23、一种电子设备,其特征在于,包括存储器和处理器,所述存储器还存储有可由所述处理器执行的计算机指本文档来自技高网...

【技术保护点】

1.一种中文短文本实体链接方法,其特征在于,包括:

2.根据权利要求1所述的一种中文短文本实体链接方法,其特征在于,基于所述嵌入相似度,计算指称与候选实体名称和候选实体描述之间的相似度得分,包括:

3.根据权利要求1所述的一种中文短文本实体链接方法,其特征在于,基于模板训练方法得到指称嵌入和实体名称嵌入,对实体链接模型进行两次训练得到最终的实体链接模型,包括:

4.根据权利要求2所述的方法,其特征在于,所述语义嵌入相似度得分Sbert计算方法如下:

5.根据权利要求2所述的方法,所述的候选实体描述之间的相似度得分计算方法如下:

6.一种中文短文本实体链接装置,其特征在于,包括:

7.根据权利要求6所述的中文短文本实体链接装置,其特征在于,所述嵌入相似度计算模块包括:

8.根绝权利要求6所述的中文短文本实体链接装置,其特征在于,所述模型训练模块包括:

9.一种电子设备,其特征在于,包括存储器和处理器,所述存储器还存储有可由所述处理器执行的计算机指令,所述计算机指令被执行时,实现所述如权利要求1至3任一项所述的处理方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,当所述计算机指令在计算机上运行时,实现所述如权利要求1至3任一项所述的一种基于对比学习的中文短文本实体链接方法对应的操作。

...

【技术特征摘要】

1.一种中文短文本实体链接方法,其特征在于,包括:

2.根据权利要求1所述的一种中文短文本实体链接方法,其特征在于,基于所述嵌入相似度,计算指称与候选实体名称和候选实体描述之间的相似度得分,包括:

3.根据权利要求1所述的一种中文短文本实体链接方法,其特征在于,基于模板训练方法得到指称嵌入和实体名称嵌入,对实体链接模型进行两次训练得到最终的实体链接模型,包括:

4.根据权利要求2所述的方法,其特征在于,所述语义嵌入相似度得分sbert计算方法如下:

5.根据权利要求2所述的方法,所述的候选实体描述之间的相似度得分计算方法如下:

6.一种中文短文本实体链接装...

【专利技术属性】
技术研发人员:程杰张茹袁国泉闫晓帆刘建毅赵新建魏家辉林冰洁夏昂卢腾张颂
申请(专利权)人:国家电网有限公司信息通信分公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1