实体关系类型确定方法、装置和设备及存储介质制造方法及图纸

技术编号:31230227 阅读:40 留言:0更新日期:2021-12-08 10:00
本申请公开了一种实体关系类型确定方法、装置和设备及存储介质,涉及人工智能技术领域,用于提升实体关系类型确定的准确性。该方法包括:获取目标实体对关联的目标句袋;将目标句袋输入至已训练的实体关系确定模型,针对目标句袋中各个句子,分别执行如下操作:针对一个句子,基于一个句子中各个字符各自对应的字符表示向量,获得一个句子的句子表示向量;基于获得的各个句子表示向量,分别确定相应句子的句子权重值,每个句子权重值表征一个句子对于目标实体对的关系确定的重要程度;基于各个句子各自对应的句子表示向量和句子权重值,确定目标句袋的句袋表示向量,并基于句袋表示向量,确定目标实体对包括的两个实体之间的目标关系类型。标关系类型。标关系类型。

【技术实现步骤摘要】
实体关系类型确定方法、装置和设备及存储介质


[0001]本申请涉及计算机
,尤其涉及人工智能(Artificial Intelligence,AI)
,提供一种实体关系类型确定方法、装置和设备及存储介质。

技术介绍

[0002]随着网络技术的发展,大量的知识蕴含在普通文本之中,从文本中去挖掘相关的知识就是一项非常必要的工作。实体(entity)关系抽取就是这样的工作,即从普通文本中挖掘实体间的关系,构造出三元组数据去丰富知识图谱,实体关系抽取属于自然语言处理(Natural Language Processing,NLP)中一项基础技术。例如针对一个句子:张三于1961年9月27日出生于A市,这一句话中包含“张三”“1961年9月27日”“A市”,这三个实体之间是存在一定关联关系的,从这句话我们可以得出,“张三”和“1961年9月27日”这两个实体是“出生时间”关系,“张三”和“A市”是“出生地”的关系。因此,基于这句话进行实体关系抽取后,则可以得到(张三,出生时间,1961年9月27日)和(张三,出生地,A市)这两个三元组,进而可将这些三元组加入知识图谱。
[0003]知识图谱在很多领域都有很广泛的应用。例如在搜索领域,用户可能问“张三啥时候出生的”、“珠穆朗玛峰有多高”等知识型问题,这时候可将这两个问题解析为“(张三,出生时间,?)”和“(珠穆朗玛峰,海拔,?)”两个查询,进而可以去知识图谱查询并得到答案;又如在推荐领域,通常会把知识图谱里的知识结合推荐模型去给用户更好的推荐结果;又或者在对话领域,用户也可能问相关一些问题,要准确的回答用户也缺少不了知识图谱。
[0004]因此,关系抽取任务的准确性直接决定了知识图谱的准确性,从而影响后续下游应用的体验感,那么,如何提升关系抽取任务的准确性,以构建高质量的知识图谱是需要思考的问题。

技术实现思路

[0005]本申请实施例提供一种实体关系类型确定方法、装置和设备及存储介质,用于提升实体关系类型确定的准确性。
[0006]一方面,提供一种实体关系类型确定方法,所述方法包括:
[0007]获取目标实体对关联的目标句袋;所述目标句袋包含多个句子,且每一个句子包含所述目标实体对;
[0008]将所述目标句袋输入至已训练的实体关系确定模型,针对所述目标句袋中各个句子,分别执行如下操作:针对一个句子,基于所述一个句子中各个字符各自对应的字符表示向量,获得所述一个句子的句子表示向量;
[0009]采用所述已训练的实体关系确定模型,基于获得的各个句子表示向量,分别确定相应句子的句子权重值,每个句子权重值表征一个句子对于所述目标实体对的关系确定的重要程度;
[0010]采用所述已训练的实体关系确定模型,基于各个句子各自对应的句子表示向量和
句子权重值,确定所述目标句袋的句袋表示向量,并基于所述句袋表示向量,确定所述目标实体对包括的两个实体之间的目标关系类型。
[0011]一方面,提供一种实体关系类型确定装置,所述装置包括:
[0012]获取单元,用于获取目标实体对关联的目标句袋,并将所述目标句袋输入至已训练的实体关系确定模型;所述目标句袋包含多个句子,且每一个句子包含所述目标实体对;
[0013]句子编码单元,用于采用所述已训练的实体关系确定模型,针对所述目标句袋中各个句子,分别执行如下操作:针对一个句子,基于所述一个句子中各个字符各自对应的字符表示向量,获得所述一个句子的句子表示向量;
[0014]句袋编码单元,用于采用所述已训练的实体关系确定模型,基于获得的各个句子表示向量,分别确定相应句子的句子权重值,每个句子权重值表征一个句子对于所述目标实体对的关系确定的重要程度,以及采用所述已训练的实体关系确定模型,基于各个句子各自对应的句子表示向量和句子权重值,确定所述目标句袋的句袋表示向量;
[0015]预测单元,用于采用所述已训练的实体关系确定模型,基于所述句袋表示向量,确定所述目标实体对包括的两个实体之间的目标关系类型。
[0016]可选的,所述装置还包括模型训练单元,用于:
[0017]基于所述实体关系确定模型预设输出的多种关系类型,获取多个三元组;其中,每个三元组包括一个实体对,且对应所述一个实体对关联标注了所述多种关系类型中的一种关系类型;
[0018]针对所述多个三元组,分别执行如下操作:针对一个三元组,采用所述一个三元组包含的实体对进行句子匹配,获取包含所述一个三元组包含的实体对的句子样本;
[0019]基于获得的多个句子样本分别构建相应的训练样本,其中,每个训练样本包括多个包含有相同实体对的句子样本;
[0020]针对获得的各个训练样本,分别标注相应的训练样本关联的实体对对应的关系类型;
[0021]基于已标注的多个训练样本对待训练的实体关系确定模型进行迭代训练,直到满足收敛条件为止,获得所述已训练的实体关系确定模型。
[0022]可选的,所述模型训练单元,还用于:
[0023]对获得的多个句子样本进行分词操作,获得多个分词;
[0024]针对所述多种关系类型,分别执行如下操作:
[0025]针对一种关系类型,确定所述多个分词中各个分词与所述一种关系类型的互信息系数,一个互信息系数用于表征一个分词对所述一种关系类型的重要程度;
[0026]基于获得的多个互信息系数,选取出大于设定阈值的互信息系数所对应的至少一个分词;
[0027]将所述一种关系类型所对应的多个句子样本中,未包含所述至少一个分词中任一分词的句子样本筛除;
[0028]基于剩余的多个句子样本分别构建相应训练样本。
[0029]可选的,所述模型训练单元,还用于:
[0030]针对所述多个分词,分别执行如下操作:
[0031]针对一个分词,确定所述一个分词出现的第一概率;
[0032]确定所述一种关系类型出现的第二概率,以及确定当所述一种关系类型存在时,所述一个分词出现的第三概率;
[0033]基于所述第一概率、所述第二概率和所述第三概率,确定所述一个分词对应的互信息系数。
[0034]可选的,所述句子编码单元,具体用于:
[0035]对所述一个句子进行字符拆分,获得所述一个句子包括的多个字符;
[0036]针对所述多个字符,分别执行如下操作:
[0037]针对一个字符,对所述一个字符进行特征编码,获得所述一个字符的内容表示向量、位置表示向量以及来源表示向量;其中,所述内容表示向量用于表征所述一个字符所对应的内容,所述位置表示向量表征所述一个字符在所述一个句子中的位置,所述来源表示向量表征所述一个字符所来源的句子;
[0038]基于所述内容表示向量、位置表示向量以及来源表示向量,获得所述一个字符的字符表示向量。
[0039]可选的,所述句子编码单元,具体用于:
[0040]对所述一个句子进行字符拆分,获得所述一个句子本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体关系类型确定方法,其特征在于,所述方法包括:获取目标实体对关联的目标句袋;所述目标句袋包含多个句子,且每一个句子包含所述目标实体对;将所述目标句袋输入至已训练的实体关系确定模型,针对所述目标句袋中各个句子,分别执行如下操作:针对一个句子,基于所述一个句子中各个字符各自对应的字符表示向量,获得所述一个句子的句子表示向量;采用所述已训练的实体关系确定模型,基于获得的各个句子表示向量,分别确定相应句子的句子权重值,每个句子权重值表征一个句子对于所述目标实体对的关系确定的重要程度;采用所述已训练的实体关系确定模型,基于各个句子各自对应的句子表示向量和句子权重值,确定所述目标句袋的句袋表示向量,并基于所述句袋表示向量,确定所述目标实体对包括的两个实体之间的目标关系类型。2.如权利要求1所述的方法,其特征在于,所述实体关系确定模型的训练过程包括:基于所述实体关系确定模型预设输出的多种关系类型,获取多个三元组;其中,每个三元组包括一个实体对,且对应所述一个实体对关联标注了所述多种关系类型中的一种关系类型;针对所述多个三元组,分别执行如下操作:针对一个三元组,采用所述一个三元组包含的实体对进行句子匹配,获取包含所述一个三元组包含的实体对的句子样本;基于获得的多个句子样本分别构建相应的训练样本,其中,每个训练样本包括多个包含有相同实体对的句子样本;针对获得的各个训练样本,分别标注相应的训练样本关联的实体对对应的关系类型;基于已标注的多个训练样本对待训练的实体关系确定模型进行迭代训练,直到满足收敛条件为止,获得所述已训练的实体关系确定模型。3.如权利要求2所述的方法,其特征在于,在基于获得的多个句子样本分别构建相应的训练样本之前,所述方法还包括:对获得的多个句子样本进行分词操作,获得多个分词;针对所述多种关系类型,分别执行如下操作:针对一种关系类型,确定所述多个分词中各个分词与所述一种关系类型的互信息系数,一个互信息系数用于表征一个分词对所述一种关系类型的重要程度;基于获得的多个互信息系数,选取出大于设定阈值的互信息系数所对应的至少一个分词;将所述一种关系类型所对应的多个句子样本中,未包含所述至少一个分词中任一分词的句子样本筛除;则所述基于获得的多个句子样本分别构建相应训练样本,包括:基于剩余的多个句子样本分别构建相应训练样本。4.如权利要求3所述的方法,其特征在于,针对一种关系类型,确定所述多个分词中各个分词与所述一种关系类型的互信息系数,包括:针对所述多个分词,分别执行如下操作:针对一个分词,确定所述一个分词出现的第一概率;
确定所述一种关系类型出现的第二概率,以及确定当所述一种关系类型存在时,所述一个分词出现的第三概率;基于所述第一概率、所述第二概率和所述第三概率,确定所述一个分词对应的互信息系数。5.如权利要求1所述的方法,其特征在于,在基于所述一个句子中各个字符各自对应的字符表示向量,获得所述一个句子的句子表示向量之前,所述方法还包括:对所述一个句子进行字符拆分,获得所述一个句子包括的多个字符;针对所述多个字符,分别执行如下操作:针对一个字符,对所述一个字符进行特征编码,获得所述一个字符的内容表示向量、位置表示向量以及来源表示向量;其中,所述内容表示向量用于表征所述一个字符所对应的内容,所...

【专利技术属性】
技术研发人员:杨韬
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1