当前位置: 首页 > 专利查询>东北大学专利>正文

基于词法信息增强的开放信息抽取的方法技术

技术编号:42119510 阅读:16 留言:0更新日期:2024-07-25 00:38
本发明专利技术公开一种基于词法信息增强的开放信息抽取的方法,涉及NLP技术中的开放信息抽取技术领域。获取OPENIE数据集;对OPENIE数据集进行预处理,并将预处理后的OPENIE数据集划分为训练集和测试集;构建句法多视角学习模型MIL‑OIE;利用训练集对句法多视角学习模型MIL‑OIE进行训练;将测试集输入训练完成的MIL‑OIE模型,得到三元组。本发明专利技术中通过将成分树和依存树转换为词级图表,句法结构为神经网络提供了丰富的上下文信息,模型可以更准确地识别实体间的潜在关系从而提高关系抽取的性能;句法分析提供了一种鲁棒性机制,增强了模型的通用性和可扩展性;本发明专利技术采用了多视角学习方法以增强学习效果;引入多语言数据集进行训练提高其泛化能力。

【技术实现步骤摘要】

本专利技术涉及nlp技术中的开放信息抽取,尤其涉及基于词法信息增强的开放信息抽取的方法


技术介绍

1、开放信息提取是将非结构化文本转换为半结构化三元组格式<主体;关系;宾语>的任务,其中这三个组成部分是从原始文本中广泛提取的文本短语。例如,给定句子“机器学习是人工智能的一个子领域。”,可以提取元组<机器学习,是一个子领域的,人工智能>,其中关系短语“是一个子领域的”表明了主体“机器学习”和对象“人工智能”之间的语义关系。三元组在各种下游任务中显示出了其效用,例如问答系统、机器阅读、多文档摘要、模式归纳和知识库构建。

2、传统的openie开放信息抽取系统通常是基于统计或规则的。它们主要基于句子结构上启发式定义的某些模式来提取关系元组。模式的局限性导致传统openie系统在处理复杂句子时效果不佳。最近,神经网络openie系统已被开发并显示出有希望的结果。神经网络openie系统不再依赖于预定义的模式。神经网络openie系统能够基于输入句子的语义编码端到端地提取关系元组。传统模型所需的句子句法结构分析似乎不再是必要的。本文档来自技高网...

【技术保护点】

1.一种基于词法信息增强的开放信息抽取的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其特征在于,所述步骤2具体为:使用AACTRANS模型对OPENIE数据集中的句子和n元OPENIE注释进行一致性翻译,具体的,利用AACTRANS模型中的跨语言标签投射算法将句子和n元OPENIE注释从当前语言映射到若干种目标语言,得到多种语言的OPENIE数据集,即预处理后的OPENIE数据集,然后按照设定比例将多种语言的OPENIE数据集划分为训练集和测试集。

3.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其...

【技术特征摘要】

1.一种基于词法信息增强的开放信息抽取的方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其特征在于,所述步骤2具体为:使用aactrans模型对openie数据集中的句子和n元openie注释进行一致性翻译,具体的,利用aactrans模型中的跨语言标签投射算法将句子和n元openie注释从当前语言映射到若干种目标语言,得到多种语言的openie数据集,即预处理后的openie数据集,然后按照设定比例将多种语言的openie数据集划分为训练集和测试集。

3.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其特征在于,步骤3中所述多视角学习模型mil-oie包括词性标注器、bert编码器、依存图构建模块、成分图构建模块、成分映射模块、依存映射模块、依存图gcn编码器、成分图gcn编码器、...

【专利技术属性】
技术研发人员:李宗晟潘永康程维王炳然彭程孙霜铭
申请(专利权)人:东北大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1