当前位置: 首页 > 专利查询>华东计算技术研究所中国电子科技集团公司专利>正文

基于实体链接和大规模预训练模型的实体消歧方法及系统技术方案

技术编号：36392003 阅读：28 留言：0更新日期：2023-01-18 09:56

本发明专利技术提供了一种基于实体链接和大规模预训练模型的实体消歧方法及系统，包括：步骤S1：将文本输入到RoBERTa

全部详细技术资料下载

【技术实现步骤摘要】
基于实体链接和大规模预训练模型的实体消歧方法及系统

[0001]本专利技术涉及语言处理领域，具体地，涉及一种基于实体链接和大规模预训练模型的实体消歧方法及系统。

技术介绍

[0002]在2017年Transformer提出来之后，以Transformer为基础架构的预训练语言模型逐渐成为了自然语言处理方向的主流技术。以BERT为例，它是2018年10月由Google AI研究院提出的一种预训练模型，在Transformer基础上发展过来的一套流程，具体而言，BERT是一个多层Transformer的Encoder，输入的Embedding通过一层层的Encoder进行编码转换，再连接到不同的下游任务。由图1展示了BERT模型的预训练阶段、不同下游任务微调的阶段以及内部结构。
[0003]从图1可以看出，BERT采用了双向并行输入的方式，即将句子整个输入到模型中，而不是将单词一个接着一个地输入，这样可以充分利用GPU的性能，大大提升模型的运行效率。与此同时由于并行输入会带来单词在文本中的位置信息的丢失，因此BERT模型额外需要增加了一个位置编码输入，确保位置信息不被丢失。同时，BERT内部采用了以双向Transformer为基础的架构，使得经过BERT预训练模型后每个位置的词向量都包含上下文的信息，这让每一个词向量都具有在这一段自然语言中独特的词向量特征。
[0004]BERT的训练主要分为两个阶段：预训练阶段和Fine
‑
tuning阶段。预训练阶段与Word2Vec，ELMo模型等

【技术保护点】

【技术特征摘要】
1.一种基于实体链接和大规模预训练模型的实体消歧方法，其特征在于，包括：步骤S1：将文本输入到RoBERTa
‑
Large模型中，将文本转为固定词向量，设置目标消歧的实体；步骤S2：在RoBERTa
‑
Large模型的输出得到词向量的生成结果；步骤S3：根据实体筛选出知识库中数据，将实体数据进行拼接，输入到预训练模型中；步骤S4：从预训练模型中输出的知识库数据进行向量相似度计算。2.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法，其特征在于，在所述步骤S1中：选择一句自然语言文本，给定文本长度为N，将该文本输入到RoBERTa
‑
Large模型，RoBERTa
‑
Large模型中的embedding层将自然语言文本转为固定词向量；整个embedding层的维度为(X，Y)，embedding层中包含X个词，每个词的向量维度为Y，则该例句的句子维度为(N，Y)；指定目标消歧的实体S，算法根据实体名称到句子中去匹配对应的位置，实体S的长度为L，其在文本中的起始位置和终止位置为(P，P+L)，词向量维度为(L，Y)。3.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法，其特征在于，在所述步骤S2中：在RoBERTa
‑
Large的输出得到词向量的生成结果，生成结果的维度为(N，Y)，其中每一个词向量都包含了上下句的文本信息，根据实体S起始与终止位置提取对应的词向量表示，同时对其进行加合，使用torch.sum()函数，这时实体S的词向量维度为(1,Y)，将其表示为Vs，一维向量的向量表示包含了该词的整个特征。4.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法，其特征在于，在所述步骤S3中：选定的知识库结构中每一条数据都为JSON格式类型，根据实体S筛选出知识库中所有实体为S的数据，总共有W条数据匹配，将每一个实体数据中的每一个键值进行拼接，输入到预训练模型中；拼接后的实体数据长度为L1，则初始词向量的维度为(L1，Y)；对从预训练模型中输出的知识库数据词向量取平均值，每个词向量纵向元素相加再除以L1，得到了一个一维向量Vd，该一维向量包含了该数据条的整个特征信息，得到了W条一维向量Vd，计为矩阵R，其维度为(W，Y)。5.根据权利要求1所述的基于实体链接和大规模预训练模型的实体消歧方法，其特征在于，在所述步骤S4中：将向量Vs与矩阵R进行向量相似度计算，使用余弦相似度计算，通过测量两个向量的夹角的余弦值度量它们之间的相似性，具体计算方法为：两个向量的点积除以两个向量长度的乘积，如下式所示：
其中，A和B为相似性计算的两个向量；对计算相似性赋予阈值，即如果最终的相似性结果小于阈值，则说明原始自然语言文本中的目标实体含义与知识库中数据相关性较低，则不会返回知识库中结果；当知识库中不存在目标实体名称时，采用synonyms()第三方库在匹配与该实体最为相似的多个实体，并将这多个实体执行步骤S1
‑
S4，得到相近实体含义的消歧结果。6.一种...

【专利技术属性】
技术研发人员：苏雨晨，桑耘，李德启，王盼盼，黄哲，
申请(专利权)人：华东计算技术研究所中国电子科技集团公司第三十二研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人