基于实体链接和大规模预训练模型的实体消歧方法及系统技术方案

技术编号:36392003 阅读:14 留言:0更新日期:2023-01-18 09:56
本发明专利技术提供了一种基于实体链接和大规模预训练模型的实体消歧方法及系统,包括:步骤S1:将文本输入到RoBERTa

【技术实现步骤摘要】
基于实体链接和大规模预训练模型的实体消歧方法及系统


[0001]本专利技术涉及语言处理领域,具体地,涉及一种基于实体链接和大规模预训练模型的实体消歧方法及系统。

技术介绍

[0002]在2017年Transformer提出来之后,以Transformer为基础架构的预训练语言模型逐渐成为了自然语言处理方向的主流技术。以BERT为例,它是2018年10月由Google AI研究院提出的一种预训练模型,在Transformer基础上发展过来的一套流程,具体而言,BERT是一个多层Transformer的Encoder,输入的Embedding通过一层层的Encoder进行编码转换,再连接到不同的下游任务。由图1展示了BERT模型的预训练阶段、不同下游任务微调的阶段以及内部结构。
[0003]从图1可以看出,BERT采用了双向并行输入的方式,即将句子整个输入到模型中,而不是将单词一个接着一个地输入,这样可以充分利用GPU的性能,大大提升模型的运行效率。与此同时由于并行输入会带来单词在文本中的位置信息的丢失,因此BERT模型额外需要增加了一个位置编码输入,确保位置信息不被丢失。同时,BERT内部采用了以双向Transformer为基础的架构,使得经过BERT预训练模型后每个位置的词向量都包含上下文的信息,这让每一个词向量都具有在这一段自然语言中独特的词向量特征。
[0004]BERT的训练主要分为两个阶段:预训练阶段和Fine

tuning阶段。预训练阶段与Word2Vec,ELMo模型等类似,是在大型数据集上根据一些预训练任务训练得到。Fine

tuning阶段是后续用于一些下游任务的时候进行微调,例如文本分类,词性标注,问答系统等,BERT无需调整结构就可以在不同的任务上进行微调。
[0005]在BERT的预训练阶段主要有两个任务,第一个是MaskedLM,即在句子中随机掩盖掉一部分单词,然后将句子传入BERT中编码每一个单词的信息,最终用句子中其余单词的信息来预测被掩盖掉的正确单词;第二个是下一句预测,即将句子A和B输入BERT,预测B是否A的下一句。图2展示了BERT模型的预训练过程。
[0006]实体消歧旨在解决文本中广泛存在存在的名称歧义问题,在知识图谱构建、语义化搜索、问答系统以及推荐领域等方面都有着广泛的应用。例如,“荣耀手机的性能一直都很好。”和“王者荣耀这款游戏很受青少年喜欢。”,我们需要针对目标实体“荣耀”来判断它指的是手机还是游戏,即对目标实体进行消歧。实体消歧问题主要需要在以下几个领域中进行解决:
[0007](1)知识图谱构建:对于一段自然语言文本,实体抽取需要从自然语言中抽取实体及其关系以构成图谱,例如,“现在越来越多年轻人都开始使用苹果手机”,但是根据上文抽取得到的实体和关系不能直接构造知识图谱,因为苹果具体指的是水果还是高科技公司。实体消歧技术将实体的歧义进行消除,经过实体抽取的实体都能够得到正确的链接.实体消歧是知识图谱构建中必不可少的一步,对知识图谱的构建有着重要的作用。
[0008](2)语义化搜索:语义检索需要利用关键词检索用户所需的信息。然而,当句子中
的关键词出现一词多义的情况下,往往不能很好的检索到用户想要的信息。因此,实体消歧在对关键词进行消歧后,能够链指到对应知识库中的实体,从而能够准确检索到实体在句子中所表达的准确信息。
[0009](3)问答系统:指让计算机自动回答用户所提出的问题,是信息服务的一种高级形式。问答系统依赖于它们背后支持的知识库来回答用户的问题.问答系统包括检索式问答系统、社区问答系统以及面向知识图谱的问答系统。每一种问答系统都需要将问答信息与知识库中对应的实体进行链接,从而能够正确的反馈答案。
[0010](4)推荐系统:如何为用户提供个性化推荐并提高推荐的准确度和用户满意度,是当前推荐系统研究所面临的主要问题,然而对于某一些一词多义的词语,如果不能对其进行消歧链指到知识库中正确的实体中,则会对用户体验感造成较大的影响。因此,实体消歧技术为推荐系统提供关键词到知识图谱的定位,通过定位才能完成个性化推荐任务。
[0011]实体消歧的有益效果主要体现在知识图谱构建、语义化搜索、问答系统等领域,在构建知识图谱的过程中加入实体消歧算法能够很大程度上消除一词多义带来的影响,这样会使得知识图谱的构建更加精确。同时,知识图谱的出现为语义带来新的发展前景.基于知识图谱的语义检索搜索更加精准化。在知识图谱知识的支持下,利用实体链接技术对关键词与知识图谱中的实体进行链接从而获取信息.借助实体消歧技术将查找内容链接到正确的实体上,通过知识图谱中实体之间的关联可直接给出满足用户搜索意图的答案并扩展用户的搜索范围,联系更多的相关知识以反馈给用户。
[0012]同样,在问答领域,实体消歧技术能够提升系统在与人交互时的结果准确率,同时也能够提升用户使用系统的体验感。
[0013]目前实体消歧技术主要分为基于聚类的实体消歧以及基于实体链接的实体消歧技术,前者是目标实体列表未给定,以聚类方式对实体指称项进行消歧。这样所有指向同一个目标实体的指称项被消歧系统聚类到同一类别下,聚类的结果中每一个类别对应一个目标实体。而基于实体链接的实体消歧技术则是给出目标实体列表,将实体指称项与目标实体列表中的对应实体进行链接实现消歧。本专利技术将基于实体链接以及深度学习技术,完成实体消歧任务目标。
[0014]目前基于实体链接的实体消歧方法主要分为以下四种:
[0015]1、向量空间模型:实体概念和实体指称项都被表示为上下文中实体名词组成的向量,基于这些实体名词向量的表示,向量空间模型通过计算两个向量之间的相似度来对实体概念和实体指称项的相似性进行打分。
[0016]2、主题一致模型:实体指称项的候选实体概念与指称项上下文中的其他实体概念的一致性程度。
[0017]3、协同实体链接:一个文档中的实体具有一定的关联性,因此协同实体链接不止限于该实体的局部上下文文本,而是增加了一个全局项(协同策略)来综合考虑目标实体之间的一致性.对文档内所有实体指称项进行协同链接可以提升实体链接的性能。
[0018]4、基于神经网络的实体消歧:深度学习卷积网络等方法。
[0019]专利文献CN110069775A(申请号:CN201910207612.0)公开了一种实体消歧方法及系统,该方法包括以下步骤:获取待分析自然语言中的待消歧实体、以及该待消歧实体的多个义项;分别计算该待消歧实体的每个义项出现在待分析自然语言中的总得分;定义总得
分最高的义项为待消歧实体在待分析自然语言中的含义。但该专利技术没有手动添加阈值来决定是否输出实体的具体含义。

技术实现思路

[0020]针对现有技术中的缺陷,本专利技术的目的是提供一种基于实体链接和大规模预训练模型的实体消歧方法及系统。
[0021]根据本专利技术提供的一种基于实体链接和大规模预训练模型的实体消歧方法,包括:
...

【技术保护点】

【技术特征摘要】
1.一种基于实体链接和大规模预训练模型的实体消歧方法,其特征在于,包括:步骤S1:将文本输入到RoBERTa

Large模型中,将文本转为固定词向量,设置目标消歧的实体;步骤S2:在RoBERTa

Large模型的输出得到词向量的生成结果;步骤S3:根据实体筛选出知识库中数据,将实体数据进行拼接,输入到预训练模型中;步骤S4:从预训练模型中输出的知识库数据进行向量相似度计算。2.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法,其特征在于,在所述步骤S1中:选择一句自然语言文本,给定文本长度为N,将该文本输入到RoBERTa

Large模型,RoBERTa

Large模型中的embedding层将自然语言文本转为固定词向量;整个embedding层的维度为(X,Y),embedding层中包含X个词,每个词的向量维度为Y,则该例句的句子维度为(N,Y);指定目标消歧的实体S,算法根据实体名称到句子中去匹配对应的位置,实体S的长度为L,其在文本中的起始位置和终止位置为(P,P+L),词向量维度为(L,Y)。3.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法,其特征在于,在所述步骤S2中:在RoBERTa

Large的输出得到词向量的生成结果,生成结果的维度为(N,Y),其中每一个词向量都包含了上下句的文本信息,根据实体S起始与终止位置提取对应的词向量表示,同时对其进行加合,使用torch.sum()函数,这时实体S的词向量维度为(1,Y),将其表示为Vs,一维向量的向量表示包含了该词的整个特征。4.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法,其特征在于,在所述步骤S3中:选定的知识库结构中每一条数据都为JSON格式类型,根据实体S筛选出知识库中所有实体为S的数据,总共有W条数据匹配,将每一个实体数据中的每一个键值进行拼接,输入到预训练模型中;拼接后的实体数据长度为L1,则初始词向量的维度为(L1,Y);对从预训练模型中输出的知识库数据词向量取平均值,每个词向量纵向元素相加再除以L1,得到了一个一维向量Vd,该一维向量包含了该数据条的整个特征信息,得到了W条一维向量Vd,计为矩阵R,其维度为(W,Y)。5.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法,其特征在于,在所述步骤S4中:将向量Vs与矩阵R进行向量相似度计算,使用余弦相似度计算,通过测量两个向量的夹角的余弦值度量它们之间的相似性,具体计算方法为:两个向量的点积除以两个向量长度的乘积,如下式所示:
其中,A和B为相似性计算的两个向量;对计算相似性赋予阈值,即如果最终的相似性结果小于阈值,则说明原始自然语言文本中的目标实体含义与知识库中数据相关性较低,则不会返回知识库中结果;当知识库中不存在目标实体名称时,采用synonyms()第三方库在匹配与该实体最为相似的多个实体,并将这多个实体执行步骤S1

S4,得到相近实体含义的消歧结果。6.一种...

【专利技术属性】
技术研发人员:苏雨晨桑耘李德启王盼盼黄哲
申请(专利权)人:华东计算技术研究所中国电子科技集团公司第三十二研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1