【技术实现步骤摘要】
一种角色关系的获取方法及相关产品
[0001]本申请涉及数据处理
,尤其涉及一种角色关系的获取方法及相关产品
。
技术介绍
[0002]角色图谱一般指包含文本中的角色和角色关系的一种垂类知识图谱
。
角色图谱以可视化的方式进行展示,可以便于用户直观地查询角色信息
。
在相关技术中,通常可以先对角色进行实体抽取,再对角色关系进行抽取,从而构建出文本的角色图谱
。
[0003]但是,在长篇小说等文字内容过多的书籍中,由于文本中角色的命名和关系复杂
、
丰富,角色实体抽取和关系抽取易出现不准确的问题
。
抽取的角色关系不准确,将影响构建出的角色图谱的准确性,并进一步影响角色图谱的应用效果
。
技术实现思路
[0004]本申请实施例提供了一种角色关系的获取方法及相关产品,以提高角色实体和角色实体的关系的抽取效果
。
[0005]第一方面,本申请实施例提供一种角色关系的获取方法,包括:基于实体抽取模型对 ...
【技术保护点】
【技术特征摘要】
1.
一种角色关系的获取方法,其特征在于,包括:基于实体抽取模型对待处理文本进行抽取,得到人物类型的实体作为第一候选实体;根据词汇的凝固度和自由度,从所述待处理文本中确定目标词汇作为第二候选实体;所述目标词汇为凝固度大于或等于预设凝固度阈值且自由度大于或等于预设自由度阈值的词汇;所述第二候选实体包括人物类型的实体;基于所述待处理文本,通过实体分类模型对所述第一候选实体和所述第二候选实体进行分类,得到分类结果,并将分类结果为角色类型的多个实体作为目标实体;所述角色类型为所述人物类型的子类型;基于所述待处理文本,通过关系预测模型对多个所述目标实体之间的关系进行预测,得到多个所述目标实体之间的预测关系
。2.
根据权利要求1所述的角色关系的获取方法,其特征在于,待训练的实体抽取模型包括第一编码模块
、
第一预测模块
、
第二预测模块和第三预测模块;所述实体抽取模型通过如下步骤训练得到:通过所述第一编码模块对拼接数据进行编码,得到词向量;所述拼接数据为将第一样本文本和所述第一样本文本中实体类型的描述信息进行拼接得到的数据;将所述词向量作为所述第一预测模块的输入,通过所述第一预测模块,预测与所述描述信息对应的实体在所述第一样本文本中的开始位置信息,并确定所述第一预测模块对应的第一损失值;以及,将所述词向量作为所述第二预测模块的输入,通过所述第二预测模块,预测与所述描述信息对应的实体在所述第一样本文本中的结束位置信息,并确定所述第二预测模块对应的第二损失值;将所述开始位置信息和所述结束位置信息作为所述第三预测模块的输入,通过所述第三预测模块,预测从所述开始位置信息至所述结束位置信息构成的第一文本片段为实体的概率,并确定所述第三预测模块对应的第三损失值;基于所述第一损失值
、
所述第二损失值和所述第三损失值,迭代更新所述待训练的实体抽取模型的参数,直至更新后的模型满足第一训练截止条件时结束训练,得到所述实体抽取模型
。3.
根据权利要求1所述的角色关系的获取方法,其特征在于,所述根据词汇的凝固度和自由度,从所述待处理文本中确定目标词汇,包括:对所述待处理文本进行拆分,得到多个候选词汇;针对多个所述候选词汇中的第一候选词汇,根据所述第一候选词汇中的多个组成字分别对应的出现频率,和多个所述组成字的共同出现频率,确定所述第一候选词汇的凝固度;以及,根据所述第一候选词汇的左邻字信息熵和右邻字信息熵,确定所述第一候选词汇的自由度;根据多个所述候选词汇分别对应的凝固度和自由度,从多个所述候选词汇中确定凝固度大于或等于所述预设凝固度阈值且自由度大于或等于所述预设自由度阈值的词汇作为所述目标词汇
。4.
根据权利要求1所述的角色关系的获取方法,其特征在于,所述第一候选实体和所述第二候选实体均隶属于所述待处理文本的候选实体集;所述实体分类模型包括第二编码模块
、
注意力模块
、
构图模块
、
图卷积模块和点积模块;
所述基于所述待处理文本,通过实体分类模型对所述第一候选实体和所述第二候选实体进行分类,得到分类结果,包括:通过所述第二编码模块对所述候选实体集中的多个候选实体分别在所述待处理文本中的上下文片段进行编码,得到各候选实体的上下文向量;将各候选实体和对应的上下文向量作为所述注意力模块的输入,通过所述注意力模块确定各候选实体和对应的上下文向量之间的关联关系作为第一关联关系;通过所述构图模块对各候选实体的人物类型标签进行处理,得到标签图结构;所述标签图结构中的节点用于表示预设的多种角色类型标签,所述标签图结构中的边用于表示多种所述角色类型标签之间存在关联;所述角色类型标签为所述人物类型标签的子标签;将标签图结构作为所述图卷积模块的输入,通过所述图卷积模块对所述标签图结构进行处理,确定多种所述角色类型标签之间的关联关系作为第二关联关系;通过所述点积模块,对所述第一关联关系和所述第二关联关系进行点积运算,得到各候选实体的分类结果;所述分类结果包括角色类型和非角色类型
。5.
根据权利要求4所述的角色关系的获取方法,其特征在于,所述实体分类模型是基于样本实体
、
所述样本实体所在文本的上下文片段,以及所述样本实体的角色类型标签训练得到的;所述样本实体
、
所述样本实体所在文本的上下文片段,以及所述样本实体的角色类型标签,通过如下步骤获取:从第二样本文本中获取角色类型的实体作为所述样本实体,并获取所述样本实体在所述第二样本文本中的上下文片段;对所述样本实体的角色类型进行标注得到所述角色类型标签
。6.
根据权利要求5所述的角色关系的获取方法,其特征在于,所述样本实体
、
所述样本实体所在文本的上下文片段,以及所述样本实体的角色类型标签,均隶属于所述实体分类模型的样本数据集;所述方法还包括:获取热词实体;所述热词实体为用于表示实体的热词;基于信息流数据生成包括所述热词实体的第二文本片...
【专利技术属性】
技术研发人员:梁宇轩,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。