实体和关系联合抽取方法及装置、存储介质和终端制造方法及图纸

技术编号:35698996 阅读:29 留言:0更新日期:2022-11-23 14:51
本发明专利技术公开了一种实体和关系联合提取方法及装置、存储介质和终端,其中方法使用了训练完成的联合抽取模型,其包括的词向量表示构建模块用于获取文本数据的最终词向量表示;候选实体表示构建模块用于获取最终候选实体表示集;实体分类模块用于获取最终候选实体表示集中每个最终候选实体表示所属实体类型的后验信息;关系表示构建模块用于基于每对实体对所对应的关系表示向量;关系分类模块用于获取每对实体对所属关系类型的后验信息。本发明专利技术对显式语义信息和隐式语义信息进行了充分挖掘,有助于模型深度理解实体语义并建立实体间关系,在关系抽取中考虑了全局语义信息和局部上下文长度信息,提升了模型的准确性。提升了模型的准确性。提升了模型的准确性。

【技术实现步骤摘要】
实体和关系联合抽取方法及装置、存储介质和终端


[0001]本专利技术涉及信息处理
,尤其涉及一种实体和关系联合提取方法及装置、存储介质和终端。

技术介绍

[0002]对于自然语言理解而言,仅依靠数据标注和算力投入无法做到精细和深度的语义理解,为了更好地促进自然语言理解的发展,引入先验知识引导自然语言理解成为现阶段的发展趋势。知识是一种将文本结构化存储的方式,目前,这些结构化的知识已经被广泛地应用在搜索引擎、问答系统、机器翻译等场景中。但是,由于知识规模巨大以及人工标注成本昂贵,为了尽可能及时和准确地获取知识信息,研究者们提出了命名实体识别和关系抽取任务。
[0003]语义角色标注可以建立句子的谓词和参数之间的依赖关系,这种语义结构信息可以为文本表示提供丰富的语义。但是,目前缺少将语义角色标注信息用于实体和关系联合抽取任务的工作。如果一个词或短语被标记为一个语义角色,它更有可能被标记为一个实体。例如,语义角色标签“ArgM

LOC”包含位置信息,可为“Location”类型的实体抽取提供辅助信息。同时,显式语义信息可以覆盖词之间的语义关系,这对于关系抽取非常有帮助。
[0004]除了忽略显式语义信息的引入外,许多现有模型对隐式语义信息的探索也不够充分。在大多数现有模型中,文本的表示向量在实体识别和关系提取中是共享的。然而命名实体识别侧重于挖掘实体的语义信息,而关系提取侧重于挖掘实体对中实体间的局部上下文的语义信息。因此,为了充分挖掘隐式语义信息,需要基于实体和关系联合抽取任务设计更加合理的隐式语义增强方法。
[0005]综上所述,现阶段的实体和关系联合抽取方法对于语义信息的利用和挖掘仍然不够充分,以使得命名实体识别和关系抽取不够准确和丰富。

技术实现思路

[0006]本专利技术所要解决的技术问题是现有的实体和关系联合抽取方法忽略了显式语义信息的引入,且对隐式语义信息的探索也不够充分,以使得其对实体的识别和关系的抽取不够准确和丰富。
[0007]为了解决上述技术问题,本专利技术提供了一种实体和关系联合提取方法,包括:
[0008]获取文本数据集,所述文本数据集包括多个文本数据;
[0009]基于训练完成的联合抽取模型,对所述文本数据集中每个所述文本数据进行联合抽取,以获取每个所述文本数据中的实体以及实体间的关系;
[0010]其中,所述联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;
[0011]所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述
第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示;
[0012]所述候选实体表示构建模块,用于基于所述最终词向量表示获取增强实体隐式语义信息,基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对所述初步候选实体集中所有所述初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;
[0013]所述实体分类模块,用于基于所述最终候选实体表示集,通过分类函数获取所述最终候选实体表示集中每个所述最终候选实体表示所属实体类型的后验信息;
[0014]所述关系表示构建模块,用于将所述聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;
[0015]所述关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;
[0016]其中,所述局部序列长度为所述局部语义表示的序列长度。
[0017]优选地,所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示包括:
[0018]将所述文本数据输入到预训练模型中,以获取子词向量表示序列和实体全局语义表示,并将所述子词向量表示序列经过卷积和最大池化以获取第一词向量表示;
[0019]将所述文本数据输入到语义角色标注工具中,以获取多个语义角色标注序列,并通过全连接网络将所有所述语义角色标注序列进行聚合,以获取第二词向量表示;
[0020]将所述第一词向量表示和第二词向量表示进行拼接融合,以获取所述文本数据的最终词向量表示。
[0021]优选地,所述候选实体表示构建模块基于所述最终词向量表示获取增强实体隐式语义信息包括:
[0022]将所述最终词向量表示输入到第一双向长短期记忆网络中,以获取增强实体隐式语义信息。
[0023]优选地,所述候选实体表示构建模块基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集包括:
[0024]将所述聚合候选实体集中每个聚合候选实体、所述聚合候选实体所属初步候选实体的序列长度以及实体全局语义表示分别进行拼接,以获取每个所述聚合候选实体对应的最终候选实体表示,基于所有所述最终候选实体表示形成最终候选实体表示集。
[0025]优选地,所述分类函数为softmax。
[0026]优选地,所述关系表示构建模块获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量包括:
[0027]将所述最终词向量表示输入到第二双向长短期记忆网络中,以获取增强全局上下文隐式语义信息,基于所述增强全局上下文隐式语义信息获取所述实体对集中所有实体对的局部语义表示,并将所述第二双向长短期记忆网络最后一个隐状态表示作为所述实体对集中所有所述实体对的全局语义表示;
[0028]将每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体进行拼接,以获取每对实体对所对应的关系表示向量。
[0029]优选地,对联合抽取模型进行训练以获取训练完成的联合抽取模型过程中,其损失函数为:
[0030]L=L
e
+L
r
[0031]其中,L
e
表示所述文本数据所对应所有所述最终候选实体表示所属实体类型的后验信息与实体真实标签的交叉熵损失函数,L
r
表示所述文本数据中所有实体对所属关系类型的后验信息与关系真实标签的交叉熵损失函数。
[0032]为了解决上述技术问题,本专利技术还提供了一种实体和关系联合提取装置,其特征在于,包括数据获取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体和关系联合提取方法,包括:获取文本数据集,所述文本数据集包括多个文本数据;基于训练完成的联合抽取模型,对所述文本数据集中每个所述文本数据进行联合抽取,以获取每个所述文本数据中的实体以及实体间的关系;其中,所述联合抽取模型包括词向量表示构建模块、候选实体表示构建模块、实体分类模块、关系表示构建模块和关系分类模块;所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示;所述候选实体表示构建模块,用于基于所述最终词向量表示获取增强实体隐式语义信息,基于所述增强实体隐式语义信息获取包含任意跨度的初步候选实体集,对所述初步候选实体集中所有所述初步候选实体分别进行最大池化操作,以获取聚合候选实体集,基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义表示,获取最终候选实体表示集;所述实体分类模块,用于基于所述最终候选实体表示集,通过分类函数获取所述最终候选实体表示集中每个所述最终候选实体表示所属实体类型的后验信息;所述关系表示构建模块,用于将所述聚合候选实体集中所对应最终候选实体表示所属实体分类为非空的聚合候选实体表示两两进行组合,以形成实体对集,获取每对实体对的全局语义表示和局部语义表示,并基于每对实体对的全局语义表示、局部语义表示、局部序列长度以及实体对本体获取对应关系表示向量;所述关系分类模块,用于基于每对实体对的关系表示向量,通过分类函数获取每对实体对所属关系类型的后验信息;其中,所述局部序列长度为所述局部语义表示的序列长度。2.根据权利要求1所述的方法,其特征在于,所述词向量表示构建模块,用于基于预训练模型获取文本数据的第一词向量表示和实体全局语义表示,基于语义角色标注获取所述文本数据的第二词向量表示,并将所述第一词向量表示和第二词向量表示进行拼接,以获取所述文本数据的最终词向量表示包括:将所述文本数据输入到预训练模型中,以获取子词向量表示序列和实体全局语义表示,并将所述子词向量表示序列经过卷积和最大池化以获取第一词向量表示;将所述文本数据输入到语义角色标注工具中,以获取多个语义角色标注序列,并通过全连接网络将所有所述语义角色标注序列进行聚合,以获取第二词向量表示;将所述第一词向量表示和第二词向量表示进行拼接融合,以获取所述文本数据的最终词向量表示。3.根据权利要求1所述的方法,其特征在于,所述候选实体表示构建模块基于所述最终词向量表示获取增强实体隐式语义信息包括:将所述最终词向量表示输入到第一双向长短期记忆网络中,以获取增强实体隐式语义信息。4.根据权利要求3所述的方法,其特征在于,所述候选实体表示构建模块基于所述聚合候选实体集中聚合候选实体、聚合候选实体所属初步候选实体序列长度以及实体全局语义
表示,获取最终候选实体表示集包括:将所述聚合候选实体集中每个聚合候选实体、所述聚合候选实体所属初步候选实体的序列长度以及实体全局语义表示分别进行拼接,以获取每个所述聚合候选实体对应的最终候选实体表示,基于所有所述最终候选实体表示形成最终候选实体表示集。5.根据权利要求1所述的方法,其特征在于,所述分类函数为softmax。6.根据权利要求1所述的方法,其特征在于,所述关系表示构建模块获取每对实体对...

【专利技术属性】
技术研发人员:黄俊吴慧妍朱智聪
申请(专利权)人:中国科学院上海高等研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1