三元组构造方法、装置、计算机设备和介质制造方法及图纸

技术编号:36368073 阅读:9 留言:0更新日期:2023-01-18 09:25
本公开提供了一种三元组构造方法、装置、计算机设备和介质。该方法包括:从待处理文本中识别多个候选实体;在所述多个候选实体中选出符合关系约束条件的两个实体;识别所述两个实体之间的关系;根据所述两个实体和所述两个实体之间的关系构造三元组。本公开提高了在文本内提取三元组的准确性。本内提取三元组的准确性。本内提取三元组的准确性。

【技术实现步骤摘要】
三元组构造方法、装置、计算机设备和介质


[0001]本公开涉及人工智能领域,更具体而言,涉及一种三元组构造方法、装置、计算机设备和介质。

技术介绍

[0002]目前,知识图谱或机器人语义理解等领域频繁使用三元组提取。三元组是指从语料文本中提取的主体、客体和它们之间的关系。根据提取的大量三元组,可以构建知识图谱。该知识图谱可以用于信息查询、关系查询等,也可以用于机器人对话语义理解。机器人识别出用户说话中的实体名称,根据实体名称查找相关的三元组,可以帮机器人理解用户说话的语义。
[0003]现有技术中从文本中提取三元组的方式主要有两步抽取法和联合抽取法。两步抽取法是将提取三元组的任务分为两个实体(主体、客体)识别和两个实体之间的关系识别这两个子任务。具体地,首先识别文本中的两个实体,然后利用关系识别模型预测两个实体之间的关系。联合抽取法主要是通过一个联合模型同时抽取文本中的两个实体以及两个实体之间的关系,其具体包括设计一种新的序列标注策略来使得标签中同时包含两个实体和两个实体之间的关系,然后使用序列到序列(seq2seq)模型在解码阶段每次预测一个三元组出来。
[0004]然而,文本中可能不仅包含两个实体,可能包含多个实体,多个实体中有些实体之间有关系,有些实体之间没有关系。上述两种现有技术的方式都限于一种理想情况,即文本中仅包括两个实体,只需要找出这两个实体之间的关系。但现实中文本中可能会有多个实体,且多个实体中有些实体之间有关系,有些没有关系,有关系的又只可能存在某些关系,不可能存在所有关系。即,两个实体之间可能发生的关系是有约束的。例如,主体类型是疾病,客体类型是其他治疗措施,主体和客体之间的关系仅可能是“辅助治疗”、“化疗”、“放射治疗”等,不可能是“影像学检查”等其它关系。而现有技术没有考虑实体之间的关系约束,造成提取三元组的效率低、不准确。
[0005]公开内容
[0006]有鉴于此,本公开旨在提高在文本内提取三元组的准确性。
[0007]为了达到这个目的,根据本公开的一个方面,提供了一种三元组构造方法,包括:
[0008]从待处理文本中识别多个候选实体;
[0009]在所述多个候选实体中选出符合关系约束条件的两个实体;
[0010]识别所述两个实体之间的关系;
[0011]根据所述两个实体和所述两个实体之间的关系构造三元组。
[0012]可选地,所述识别所述两个实体之间的关系,包括:
[0013]根据所述关系约束条件构建掩码向量;
[0014]利用所述掩码向量识别所述两个实体之间的约束关系。
[0015]可选地,所述在所述多个候选实体中选出符合关系约束条件的两个实体,包括:
[0016]任意选出两个实体组成实体对,确定所述实体对的类型;
[0017]如果所述类型不满足所述关系约束条件,则删除所述实体对;
[0018]如果所述类型满足所述关系约束条件,则选择所述实体对。
[0019]可选地,所述方法还包括:
[0020]如果所述构造的三元组不符合所述关系约束条件,则删除所述三元组。
[0021]可选地,所述从待处理文本中识别多个候选实体包括:
[0022]将所述待处理文本分词;
[0023]如果分成的词落入预先构建的实体词典,则该词作为候选实体。
[0024]可选地,所述从待处理文本中识别多个候选实体包括:基于条件随机场模型,从待处理文本中识别多个候选实体,其中,所述条件随机场模型通过以下方式训练:
[0025]将语料样本集中的语料样本分词,为分成的词中落入预先构建的实体词典的词打上标签;
[0026]将各语料样本输入所述条件随机场模型,由所述条件随机场模型输出标注的候选实体,与打上的标签比对,如果所述语料样本集中标注的候选实体与所述标签一致的语料样本比率低于预定语料样本比率,则调整所述条件随机场模型,直到所述语料样本集中标注的候选实体与所述标签一致的语料样本比率不低于预定语料样本比率。
[0027]根据本公开的一个方面,提供了一种三元组构造装置,包括:
[0028]实体识别单元,用于从待处理文本中识别多个候选实体;
[0029]实体选择单元,用于在所述多个候选实体中选出符合关系约束条件的两个实体;
[0030]关系识别模型,用于识别所述两个实体之间的关系;
[0031]三元组构造单元,用于根据所述两个实体和所述两个实体之间的关系构造三元组。
[0032]可选地,所述关系识别模型用于:
[0033]根据所述关系约束条件构建掩码向量;
[0034]利用所述掩码向量识别所述两个实体之间的约束关系。
[0035]可选地,所述实体选择单元用于:
[0036]任意选出两个实体组成实体对,确定所述实体对的类型;
[0037]如果所述类型不满足所述关系约束条件,则删除所述实体对;
[0038]如果所述类型满足所述关系约束条件,则选择所述实体对。
[0039]可选地,该装置还包括:验证单元,用于如果所述构造的三元组不符合所述关系约束条件,则删除所述三元组。
[0040]可选地,所述实体识别单元用于:
[0041]将所述待处理文本分词;
[0042]如果分成的词落入预先构建的实体词典,则该词作为候选实体。
[0043]可选地,所述实体识别单元用于:基于条件随机场模型,从待处理文本中识别多个候选实体,其中,所述条件随机场模型通过以下方式训练:
[0044]将语料样本集中的语料样本分词,为分成的词中落入预先构建的实体词典的词打上标签;
[0045]将各语料样本输入所述条件随机场模型,由所述条件随机场模型输出标注的候选
实体,与打上的标签比对,如果所述语料样本集中标注的候选实体与所述标签一致的语料样本比率低于预定语料样本比率,则调整所述条件随机场模型,直到所述语料样本集中标注的候选实体与所述标签一致的语料样本比率不低于预定语料样本比率。
[0046]根据本公开的一个方面,提供了一种计算机设备,包括:存储器,用于存储计算机可执行代码;处理器,用于执行所述计算机可执行代码,以实现如上所述的方法。
[0047]根据本公开的一个方面,提供了一种计算机可读介质,包括计算机可执行代码,所述计算机可执行代码被处理器执行时实现如上所述的方法。
[0048]本公开实施例中,从待处理文本中识别多个候选实体而不是仅识别出两个实体。然后,在所述多个候选实体中选出符合关系约束条件的两个实体,再识别两个实体之间的关系,从而构造三元组。这个过程中,待处理文本中的候选实体被全部识别出来,然后再两两识别它们之间是否符合关系约束条件。不符合关系约束条件的,就不可能有关系,直接剔除。对于符合关系约束条件的,再识别是何种关系。这样,就提取出该待处理文本中可能的所有三元组,而不是仅仅识别出其中一个三元组,提高了三元组提取的全面性和准本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种三元组构造方法,包括:从待处理文本中识别多个候选实体;在所述多个候选实体中选出符合关系约束条件的两个实体;识别所述两个实体之间的关系;根据所述两个实体和所述两个实体之间的关系构造三元组。2.根据权利要求1所述的方法,其中,所述识别所述两个实体之间的关系,包括:根据所述关系约束条件构建掩码向量;利用所述掩码向量识别所述两个实体之间的约束关系。3.根据权利要求1或2所述的方法,其中,所述在所述多个候选实体中选出符合关系约束条件的两个实体,包括:任意选出两个实体组成实体对,确定所述实体对的类型;如果所述类型不满足所述关系约束条件,则删除所述实体对;如果所述类型满足所述关系约束条件,则选择所述实体对。4.根据权利要求1或2所述的方法,其中,所述方法还包括:如果所述构造的三元组不符合所述关系约束条件,则删除所述三元组。5.根据权利要求1或2所述的方法,其中,所述从待处理文本中识别多个候选实体包括:将所述待处理文本分词;如果分成的词落入预先构建的实体词典,则该词作为候选实体。6.根据权利要求1或2所述的方法,其中,所述从待处理文本中识别多个候选实体包括:基于条件随机场模型,从待处理文本中识别多个候选实体,其中,所述条件随机场模型通过以下方式训练:将语料样本集中的语料样本分词,为分成的词中落入预先构建的实体词典的词打上标签;将各语料样本输入所述条件随机场模型,由所述条件随机场模型输出标注的候选实体,与打上的标签比对,如果所述语料样本集中标注的候选实体...

【专利技术属性】
技术研发人员:谭传奇贺一帆陈漠沙黄松芳
申请(专利权)人:阿里巴巴新加坡控股有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1