一种基于多轮阅读理解的实体对齐方法及装置制造方法及图纸

技术编号:30767918 阅读:17 留言:0更新日期:2021-11-10 12:31
本发明专利技术涉及一种基于多轮阅读理解的实体对齐方法及装置,该方法包括:对原始文本进行NER处理,得到至少一个实体及其类别标签;基于类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;分别将各个问句及对应的选项输入预先训练的文本分类模型,得到原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;按照完成对齐的实体更新问句,并迭代执行上一步,直到完成原始文本所有实体的对齐工作,最后输出结果。本发明专利技术通过多轮阅读理解的方式,再进行后续实体对齐的时候引入已对齐实体的结果信息,能够提高实体对齐的效果。能够提高实体对齐的效果。能够提高实体对齐的效果。

【技术实现步骤摘要】
一种基于多轮阅读理解的实体对齐方法及装置


[0001]本专利技术涉及文本处理中的实体对齐领域,具体涉及一种基于多轮阅读理解的实体对齐方法及装置。

技术介绍

[0002]在这个数据爆炸的时代,知识抽取尤为重要。然而同一个概念可能有着不同的表述,同一个表述可能有着不同的概念。如何更好的解决一词多义和多词一义成为一个亟待解决的问题。
[0003]目前解决这一问题的一种比较传统的做法是利用规则词典、编辑距离、TFIDF等特征提取的方式进行实体对齐。该方案主要依赖对齐前后有相同字的基础上进行索引,对于完全不同的实体mention则完全无法识别。
[0004]另一种技术则是利用最新强大的预训练语言模型或图神经网络模型对提及和知识库中的实体描述内容进行特征表示学习,继而通过计算两者特征的相似度进行关联紧密性的判定,这类方法克服了前一种传统方法无法识别完全不同的mention的问题,但仍然存在对齐模型准确率较低的问题。

技术实现思路

[0005]针对现有技术存在的上述问题,本专利技术提供一种基于多轮阅读理解的实体对齐方法及装置,通过充分利用已对齐实体和类别信息的先验知识,利用阅读理解这一技术手段,进一步提高实体对齐这一技术的识别精度,有助于文本理解的智能化,服务于对话系统和搜索引擎。
[0006]根据本专利技术实施例的第一方面,提供一种基于多轮阅读理解的实体对齐方法,包括:
[0007]对原始文本进行NER处理,得到至少一个实体及其类别标签;
[0008]基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;
[0009]分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;
[0010]按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。
[0011]进一步,所述基于所述类别标签分别构造每个实体对应的问句,具体包括:
[0012]针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。
[0013]进一步,所述根据评分结果确定一个实体的对齐结果,具体包括:
[0014]选择其中评分最高的候选词作为对应实体的对齐结果。
[0015]进一步,所述的文本分类模型采用bert模型。
[0016]根据本专利技术实施例的第二方面,提供一种基于多轮阅读理解的实体对齐装置,包括:
[0017]实体识别模块,用于对原始文本进行NER处理,得到至少一个实体及其类别标签;
[0018]问句构建及选项召回模块,用于基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;
[0019]实体对齐模块,用于分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;
[0020]迭代模块,用于按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。
[0021]进一步,所述问句构建及选项召回模块,具体用于:
[0022]针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。
[0023]进一步,所述实体对齐模块,具体用于:
[0024]选择其中评分最高的候选词作为对应实体的对齐结果。
[0025]进一步,所述的文本分类模型采用bert模型。
[0026]根据本专利技术实施例的第三方面,提供一种终端设备,包括:
[0027]处理器;以及
[0028]存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0029]根据本专利技术实施例的第四方面,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
[0030]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0031]一方面基于阅读理解的思想,充分利用了NER后实体的类别这一先验信息,另一方面通过多轮阅读理解的方式,再进行后续实体对齐的时候引入已对齐实体的结果信息,能够提高实体对齐的效果,更好完成大数据时代的知识提取工作。
[0032]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0033]通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。
[0034]图1为本专利技术实施例提供的一种基于多轮阅读理解的实体对齐方法的流程图。
具体实施方式
[0035]下面将参照附图更详细地描述本专利技术的优选实施方式。虽然附图中显示了本专利技术
的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。
[0036]在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0037]应当理解,尽管在本专利技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0038]以下结合附图详细描述本专利技术实施例的技术方案。
[0039]参见图1,本专利技术实施例提供的一种基于多轮阅读理解的实体对齐方法,包括以下步骤:
[0040]步骤1:对原始文本进行NER(Named Entity Recognition,命名实体识别)处理,得到至少一个实体及其类别标签;
[0041]比如原始文本为“在法国公开赛当中,莎拉波娃终于战胜了李娜”,处理完得到“比赛:法国公开赛,人物:萨拉波娃,李娜”。这一步的NER方法不限,非本专利重点内容。
[0042]步骤2:基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多轮阅读理解的实体对齐方法,其特征在于,包括:对原始文本进行NER处理,得到至少一个实体及其类别标签;基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体的候选词作为各个问句的选项;分别将各个问句及对应的选项输入预先训练的文本分类模型,得到所述原始文本当中不同实体的各个候选词的关联度评分,根据评分结果确定一个实体的对齐结果,完成该实体的对齐工作;按照完成对齐的实体更新问句,并迭代执行上一步,直到完成所述原始文本所有实体的对齐工作,最后输出结果。2.根据权利要求1所述的方法,其特征在于,所述基于所述类别标签分别构造每个实体对应的问句,具体包括:针对每个实体,用该实体的类别标签对应的疑问词替换原句当中的实体,构建一个问句。3.根据权利要求1所述的方法,其特征在于,所述根据评分结果确定一个实体的对齐结果,具体包括:选择其中评分最高的候选词作为对应实体的对齐结果。4.根据权利要求1

3任一项所述的方法,其特征在于,所述的文本分类模型采用bert模型。5.一种基于多轮阅读理解的实体对齐装置,其特征在于,包括:实体识别模块,用于对原始文本进行NER处理,得到至少一个实体及其类别标签;问句构建及选项召回模块,用于基于所述类别标签分别构造每个实体对应的问句,并从标准实体库中召回该实体...

【专利技术属性】
技术研发人员:邓礼志于皓张杰吴信东吴明辉
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1