一种基于伪孪生去噪网络的中文实体关系联合抽取方法技术

技术编号:43139426 阅读:30 留言:0更新日期:2024-10-29 17:43
本发明专利技术公开了一种基于伪孪生去噪网络的中文实体关系联合抽取方法,为弥补联合抽取任务对于语境信息和句法信息利用不充分问题,首先引入文本词性信息和依存句法信息进行先验特征学习,对生成的文本词性特征向量、文本语义特征向量和依存句法特征向量进行拼接和特征降维;将去噪门机制整合到孪生网络中,形成伪孪生网络,将特征降维后的特征向量分别输入到孪生网络和伪孪生网络中,对孪生网络获得的原始特征和伪孪生网络产生的去噪特征进行残差连接,形成伪孪生去噪网络,防止信息损失,并将其输入到关系导向网络执行联合抽取任务。通过伪孪生去噪网络可以很大程度上处理表示学习过程中产生的噪音特征,以此缓解一词多义和歧义问题造成的性能损失。

【技术实现步骤摘要】

本专利技术涉及自然语言处理,具体涉及一种基于伪孪生去噪网络的中文实体关系联合抽取方法


技术介绍

1、在大数据时代,网络中的信息呈现爆炸式增长,而大部分信息以自然语言文本为载体在网络中存储和传播。近年来社交媒体平台的数据规模越来越大,其中包含了许多重要的信息,而这些数据往往呈现为非结构化格式,如何高效、准确地处理和分析海量文本数据成为了当今信息
的一项重要挑战。在这个背景下,信息抽取技术成为应对海量非结构化文本数据挑战的重要技术手段。

2、实体关系抽取是信息抽取的一项核心任务,它可以从非结构化文本中自动提取实体及其关系,从而构建关系三元组,这项任务在知识图谱构建、问答系统和智能搜索等领域应用中发挥着至关重要的作用。有监督的实体和关系提取主要分为流水线方法或联合抽取方法。流水线方法将提取任务视为两个连续的子任务,即命名实体识别和关系抽取,该方法的灵活性高,但存在误差积累、实体冗余、交互缺失等问题。联合抽取方法将命名实体识别和关系抽取两个子任务联合建模,在统一的模型中共同优化,减少冗余信息,增强实体和关系交互,降低流水线方法中误差累积造成的不利本文档来自技高网...

【技术保护点】

1.一种基于伪孪生去噪网络的中文实体关系联合抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于伪孪生去噪网络的中文实体关系联合抽取方法,其特征在于,所述步骤1具体包括:

3.根据权利要求2所述的基于伪孪生去噪网络的中文实体关系联合抽取方法,其特征在于,所述文本序列化是将文字转化为token为单位的数值形式,文本中的每个token表示为chari,i表示第i个token,i∈[1,n],n是目标文本中所包含的token的总个数,对每个chari进行文本序列化,得到文本序列X=[x1,x2,……,xn];通过斯坦福大学开发的NLP工具包Stanford...

【技术特征摘要】

1.一种基于伪孪生去噪网络的中文实体关系联合抽取方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于伪孪生去噪网络的中文实体关系联合抽取方法,其特征在于,所述步骤1具体包括:

3.根据权利要求2所述的基于伪孪生去噪网络的中文实体关系联合抽取方法,其特征在于,所述文本序列化是将文字转化为token为单位的数值形式,文本中的每个token表示为chari,i表示第i个token,i∈[1,n],n是目标文本中所包含的token的总个数,对每个chari进行文本序列化,得到文本序列x=[x1,x2,……,xn];通过斯坦福大学开发的nlp工具包stanford corenlp对输入的文本序列进行分词操作,将文本拆分成词语的字符串序列;对分词后的词语序列进行词性标注,为每个词语标注其在句子中的词性,如名词、动词、形容词等;对词语序列进行依存句法分析,建立单词之间的依存关系,即每个单词与其它单词之间的语法关系,如修饰、主谓关系等,基于分词和标注处理的结果,创建词性和依存关系的词汇表;nlp工具包将词性标注结果和依存句法分析结果输出,得到词性序列c=[c1,c2,……,cm]和依存句法序列y=[y1,y2,……,ym]。

4.根据权利要...

【专利技术属性】
技术研发人员:林绍福韩宗旺
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1