面向低资源语言的实体关系联合抽取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:37357491 阅读:28 留言:0更新日期:2023-04-27 07:07
本发明专利技术公开了一种面向低资源语言的实体关系联合抽取方法、装置、设备以及存储介质。该方法获取包含丰富资源语言和低资源语言的双语平行数据集,对句子对中的实体进行预处理;将处理得到的双语平行句子输入到XLM

【技术实现步骤摘要】
面向低资源语言的实体关系联合抽取方法、装置、电子设备及存储介质


[0001]本专利技术涉及自然语言处理领域以及深度学习领域,具体地提供一种面向低资源语言的实体关系联合抽取方法、装置、电子设备及存储介质。

技术介绍

[0002]关系抽取是人类从文本数据中获取有用知识的重要方式。此任务是旨在使用计算机自动快速的对句子中的实体进行识别并判断实体之间的关系。抽取结果中的实体对和二者之间的关系就组成关系三元组:<头实体,关系,尾实体>。例如,关系抽取任务可以从句子“北京是中华人民共和国的首都”提取出三元组(北京,首都,中华人民共和国)。人们通过关系三元组可以快速的获取句子中的关键信息。目前,基于深度学习的关系抽取方法已经成为主流。
[0003]深度学习技术依赖大量的训练语料。世界上的大多数语言并没有充足的条件去人工构建可供模型训练的语料。作者发现限制低资源语言实体关系抽取发展有两个主要原因:(1)现有的关系抽取语料扩充方法只是在单语种文本中通过实体匹配的方式构建伪标记语料,无法跨语言的利用。(2)主流的实体关系抽取方法本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种面向低资源语言的实体关系联合抽取方法,其特征在于,按下列步骤进行:a、通过现有的双语平行语料构建双语相似度数据集,双语相似度数据集中每个句子对包含丰富资源语言句子和相对应的低资源语料,其中丰富资源语言句子通过实体识别工具对句子中的实体进行标注,并将标注映射到低资源句子中,得到带有实体的双语相似度数据集;b、将步骤a得到带有实体的双语相似度数据集的句子对输入到XLM

Roberta多语言预训练模型中,获取双语句子对和句中实体的特征向量;在句子对开始位置使用特殊符号<s>进行标记,在句子对的结束位置使用特殊符号</s>进行标记,在句子对的中间位置使用</s></s>进行分隔;通过实体识别工具识别句子中的实体并用书名号标识实体的始终位置;c、在步骤b通过多语言预训练模型得到实体特征的基础上,将实体的特征信息添加相对位置信息,以学习的方式及注意力的形式融合实体位置特征信息;d、在步骤c获得带有相对位置信息的特征向量的基础上,通过共同注意力的方式将双语句子对中的候选实体相互表示,尽可能多的融合双语信息;e、将获得的双语实体对和双语句子对通过分类器识别器句子对是否对齐;f、将步骤b、c、d、e通过pytorch深度学习框架进行拼接,并识别已有的带实体的丰富资源句子和无标注的稀缺资源句子进行识别;若识别为对齐句子对将丰富资源句子中的标记迁移到低资源句子,以得到伪标注数据;g、通过步骤f中得到的伪标注数据训练低资源语言实体关系联合抽取模型。2.根据权利要求1所述的提供一种面向低资源语言的实体关系联合抽取方法,其特征在于,步骤a所述双语相似度语料属于机器翻译领域已有语料。3.根据权利要求1所述的一种面向低资源语言的实体关系联合抽取方法,其特征在于,步骤a中的实体识别过程是在丰富资源句子已有较为成熟的实体识别系统条件下。4.一种基于跨语言远程监督的低资源语言实体关系联合抽取装置,其特征在于,该装置是由数据预处理模块、句子对特征提取模块、实体识别模块、实体相对位置信息提取模块、实体对信息和句子对信息融合模块、双语句子对判别模块和实体关系抽取模块组成,其中:数据预处理模块:获取双语平行语料,并对语料中资源丰富语言的句子进行命名实体识别并删除没有实体或实体不符合要求的句子。利用平行语料内容的一致性,将识别的结果...

【专利技术属性】
技术研发人员:王磊马博杨振宇杨雅婷王震马荣周喜
申请(专利权)人:中国科学院新疆理化技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1