【技术实现步骤摘要】
本专利技术涉及nlp技术中的开放信息抽取,尤其涉及基于词法信息增强的开放信息抽取的方法。
技术介绍
1、开放信息提取是将非结构化文本转换为半结构化三元组格式<主体;关系;宾语>的任务,其中这三个组成部分是从原始文本中广泛提取的文本短语。例如,给定句子“机器学习是人工智能的一个子领域。”,可以提取元组<机器学习,是一个子领域的,人工智能>,其中关系短语“是一个子领域的”表明了主体“机器学习”和对象“人工智能”之间的语义关系。三元组在各种下游任务中显示出了其效用,例如问答系统、机器阅读、多文档摘要、模式归纳和知识库构建。
2、传统的openie开放信息抽取系统通常是基于统计或规则的。它们主要基于句子结构上启发式定义的某些模式来提取关系元组。模式的局限性导致传统openie系统在处理复杂句子时效果不佳。最近,神经网络openie系统已被开发并显示出有希望的结果。神经网络openie系统不再依赖于预定义的模式。神经网络openie系统能够基于输入句子的语义编码端到端地提取关系元组。传统模型所需的句子句法结构分
...【技术保护点】
1.一种基于词法信息增强的开放信息抽取的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其特征在于,所述步骤2具体为:使用AACTRANS模型对OPENIE数据集中的句子和n元OPENIE注释进行一致性翻译,具体的,利用AACTRANS模型中的跨语言标签投射算法将句子和n元OPENIE注释从当前语言映射到若干种目标语言,得到多种语言的OPENIE数据集,即预处理后的OPENIE数据集,然后按照设定比例将多种语言的OPENIE数据集划分为训练集和测试集。
3.根据权利要求1所述的基于词法信息增强的开
...【技术特征摘要】
1.一种基于词法信息增强的开放信息抽取的方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其特征在于,所述步骤2具体为:使用aactrans模型对openie数据集中的句子和n元openie注释进行一致性翻译,具体的,利用aactrans模型中的跨语言标签投射算法将句子和n元openie注释从当前语言映射到若干种目标语言,得到多种语言的openie数据集,即预处理后的openie数据集,然后按照设定比例将多种语言的openie数据集划分为训练集和测试集。
3.根据权利要求1所述的基于词法信息增强的开放信息抽取的方法,其特征在于,步骤3中所述多视角学习模型mil-oie包括词性标注器、bert编码器、依存图构建模块、成分图构建模块、成分映射模块、依存映射模块、依存图gcn编码器、成分图gcn编码器、...
【专利技术属性】
技术研发人员:李宗晟,潘永康,程维,王炳然,彭程,孙霜铭,
申请(专利权)人:东北大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。