一种基于多轮阅读理解的实体对齐方法及装置制造方法及图纸

技术编号：30767918 阅读：17 留言：0更新日期：2021-11-10 12:31

本发明专利技术涉及一种基于多轮阅读理解的实体对齐方法及装置，该方法包括：对原始文本进行NER处理，得到至少一个实体及其类别标签；基于类别标签分别构造每个实体对应的问句，并从标准实体库中召回该实体的候选词作为各个问句的选项；分别将各个问句及对应的选项输入预先训练的文本分类模型，得到原始文本当中不同实体的各个候选词的关联度评分，根据评分结果确定一个实体的对齐结果，完成该实体的对齐工作；按照完成对齐的实体更新问句，并迭代执行上一步，直到完成原始文本所有实体的对齐工作，最后输出结果。本发明专利技术通过多轮阅读理解的方式，再进行后续实体对齐的时候引入已对齐实体的结果信息，能够提高实体对齐的效果。能够提高实体对齐的效果。能够提高实体对齐的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多轮阅读理解的实体对齐方法及装置

[0001]本专利技术涉及文本处理中的实体对齐领域，具体涉及一种基于多轮阅读理解的实体对齐方法及装置。

技术介绍

[0002]在这个数据爆炸的时代，知识抽取尤为重要。然而同一个概念可能有着不同的表述，同一个表述可能有着不同的概念。如何更好的解决一词多义和多词一义成为一个亟待解决的问题。
[0003]目前解决这一问题的一种比较传统的做法是利用规则词典、编辑距离、TFIDF等特征提取的方式进行实体对齐。该方案主要依赖对齐前后有相同字的基础上进行索引，对于完全不同的实体mention则完全无法识别。
[0004]另一种技术则是利用最新强大的预训练语言模型或图神经网络模型对提及和知识库中的实体描述内容进行特征表示学习，继而通过计算两者特征的相似度进行关联紧密性的判定，这类方法克服了前一种传统方法无法识别完全不同的mention的问题，但仍然存在对齐模型准确率较低的问题。

技术实现思路

[0005]针对现有技术存在的上述问题，本专利技术提供一种基于多轮阅读理解的实体对齐方法及装置，通过充分利用已对齐实体和类别信息的先验知识，利用阅读理解这一技术手段，进一步提高实体对齐这一技术的识别精度，有助于文本理解的智能化，服务于对话系统和搜索引擎。
[0006]根据本专利技术实施例的第一方面，提供一种基于多轮阅读理解的实体对齐方法，包括：
[0007]对原始文本进行NER处理，得到至少一个实体及其类别标签；
[0008]基于所述类别标签分别构...

【技术保护点】

【技术特征摘要】
1.一种基于多轮阅读理解的实体对齐方法，其特征在于，包括：对原始文本进行NER处理，得到至少一个实体及其类别标签；基于所述类别标签分别构造每个实体对应的问句，并从标准实体库中召回该实体的候选词作为各个问句的选项；分别将各个问句及对应的选项输入预先训练的文本分类模型，得到所述原始文本当中不同实体的各个候选词的关联度评分，根据评分结果确定一个实体的对齐结果，完成该实体的对齐工作；按照完成对齐的实体更新问句，并迭代执行上一步，直到完成所述原始文本所有实体的对齐工作，最后输出结果。2.根据权利要求1所述的方法，其特征在于，所述基于所述类别标签分别构造每个实体对应的问句，具体包括：针对每个实体，用该实体的类别标签对应的疑问词替换原句当中的实体，构建一个问句。3.根据权利要求1所述的方法，其特征在于，所述根据评分结果确定一个实体的对齐结果，具体包括：选择其中评分最高的候选词作为对应实体的对齐结果。4.根据权利要求1
‑
3任一项所述的方法，其特征在于，所述的文本分类模型采用bert模型。5.一种基于多轮阅读理解的实体对齐装置，其特征在于，包括：实体识别模块，用于对原始文本进行NER处理，得到至少一个实体及其类别标签；问句构建及选项召回模块，用于基于所述类别标签分别构造每个实体对应的问句，并从标准实体库中召回该实体...

【专利技术属性】
技术研发人员：邓礼志，于皓，张杰，吴信东，吴明辉，
申请(专利权)人：上海明略人工智能集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人