实体关系的标注自动生成方法和系统技术方案

技术编号:33503637 阅读:23 留言:0更新日期:2022-05-19 01:13
本发明专利技术公开了一种实体关系的标注自动生成的方法、系统、存储介质和处理器。将未标注数据输入第一训练模型得到第一向量组;将未标注数据输入第二训练模型得到第二向量组;根据第一向量组和第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系作为初步标注数据;将初步标注数据作为增量学习数据重新对第二训练模型进行训练得到第三训练模型;根据比较结果更新第二训练模型并确定初步标注数据中需要标注的真正实体关系和实体。通过本发明专利技术解决了现有技术无法自动对大量实体关系自动生成标注的问题,能够快速准确的自动标注出大量数据中两两实体之间真正的实体关系。的实体关系。的实体关系。

【技术实现步骤摘要】
实体关系的标注自动生成方法和系统


[0001]本专利技术涉及自动标注领域,具体而言,涉及一种实体关系的标注自动生成的方法、系统、存储介质和处理器。

技术介绍

[0002]近年来大量研究从分子生物学角度论证中药的功效,将知识图谱运用于药物研究,由于药物研究过程中,存在大量复杂的药物实体关系,而目前现有的主动学习方法直接将不包含标签的特征输入至网络当中,从而发掘有价值的未标注数据,依然交给人工来进行标注,现有技术只能对已存在的主动学习模型发掘未标注数据的价值,而无法对在药物研发过程中出现的大量实体关系进行自动标注。
[0003]针对现有技术无法自动对大量实体关系自动生成标注的问题,目前尚未提出有效地解决方案。

技术实现思路

[0004]本专利技术提供了一种实体关系的标注自动生成的方法、系统、存储介质和处理器,以解决无法自动对大量实体关系自动生成标注的问题。
[0005]根据本专利技术实施例的一个方面,提供了一种实体关系的标注自动生成的方法,包括:将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种实体关系的标注自动生成方法,其特征在于,包括:将未标注数据输入第一训练模型得到第一向量组,其中,所述第一向量组是用于记录未标注数据和已标注数据的区别信息,所述未标注数据包括实体和实体关系;将所述未标注数据输入第二训练模型得到第二向量组,其中,所述第二向量组是用于记录未标注数据存在与已标注数据中相同的实体关系;根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系;将所述最可能存在的实体关系以及对应的实体作为初步标注数据;将所述初步标注数据作为增量学习数据重新对所述第二训练模型进行训练得到第三训练模型;通过测试集测试比较所述第二训练模型和所述第三训练模型得到比较结果;根据所述比较结果选择用所述第三训练模型更新所述第二训练模型,或者保持所述第二训练模型;根据所述比较结果确定所述初步标注数据中需要标注的真正实体关系和实体。2.根据权利要求1所述的方法,其特征在于,将所述未标注数据输入所述第一训练模型得到所述第一向量组之前包括:将所述未标注数据以标注范围赋予一组预设标签,其中,所述标注范围是所述实体之间预设的实体关系,所述一组预设标签中有多个预设标签,每个所述预设标签对应标注一种实体关系。3.根据权利要求2所述的方法,其特征在于,将所述未标注数据输入第一训练模型得到第一向量组包括:将所述未标注数据通过判别器把所述实体关系映射到向量空间得到第一向量组,其中,所述判别器是通过已标注数据训练得到的,所述已标注数据包括初始人工标注数据和自动标注数据,所述自动标注数据是标注的真正实体关系和实体。4.根据权利要求1所述的方法,其特征在于,将所述未标注数据输入所述第二训练模型得到所述第二向量组包括:将所述未标注数据输入分类器得到第二向量组,其中,初始时所述分类器是由人工标注数据训练而成,标注过程时所述分类器是根据所述未标注数据、所述第一向量组和所述第二向量组训练得到的。5.根据权利要求1所述的方法,其特征在于,根据所述第一向量组和所述第二向量组计算得分来判断未标注数据中任意两个实体之间最可能存在的实体关系包括:将所述第一向量组和所述第二向量组相加后除以二计算得到平均向量,其中,所述平均向量中的每个实体关系均有对应的平均分值;根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分得到每个实体关系的权重分数。6.根据权利要求5所述的方法,其特征在于,根据所述平均向量来为所述未标注数据中任意两个实体之间的实体关系进行打分之后包括:将所述未标注数据中任意两个实体之间的实体关系分别输入相同的第二训练模型训练得到多个实体关系第二训练模型,其中,所述实体关系的数量与所述第二训练模型的数
量相同;将多个实体关系第二训练模型分别乘以每个实体关系的权重分数,汇...

【专利技术属性】
技术研发人员:王苏宏陈子东肖志峰
申请(专利权)人:北京白星花科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1