【技术实现步骤摘要】
基于指针网络的非结构文本抽取多任务联合训练方法
本专利技术涉及自然语言处理领域,具体涉及基于指针网络的非结构文本抽取多任务联合训练方法。
技术介绍
传统的信息抽取方法有的基于统计机器学习方法或者Pipeline形式的深度学习模型,其将实体检测和识别、共指消解、关系抽取、事件提取作为独立的任务进行训练,下游模型的输入依赖于上游模型的输出,不利于利用文本的全局信息且容易造成错误传播。有的方法首先通过枚举每个单词文本片段(Span);然后对每个文本片段进行实体检测,根据每个Span的评分,通过Span纯化的方法,即保留评分高的作为实体候选,得到最终实体提及(EntityMention);最后进行实体分类和关系分类,事件抽取等下游任务。
技术实现思路
本专利技术解决了传统的信息抽取方法的弊端:传统的信息抽取方法在模型操作上的孤立,且下游模型的输入依赖于上游模型的输出,不利于利用文本的全局信息且容易造成错误传播。本专利技术通过下述技术方案实现:基于指针网络非结构文本抽取方法,包括以下步骤:步 ...
【技术保护点】
1.基于指针网络非结构文本抽取方法,其特征在于,包括以下步骤:/n步骤1:单词编码:通过BERT模型获得句子中各个单词的向量表示,得到单词序列向量的表示;/n步骤2:将指针指向表示实体或事件的文本片段,所述指针指向单词序列向量,对于非实体或事件的文本片段的开始字符用指针指向开始标记S,指针指向后形成文本片段表示向量;/n步骤3:运用图注意力网络模型和图注意力机制,将向量形成完全图并进行多次信息传播,得到步骤2中的各向量的最终表示,所述完全图包括节点与节点之间边;/n步骤4:将实体识别任务和事件的类型检测任务转化为所述完全图中代表实体提及和事件提及的节点的类型分类任务,将共指 ...
【技术特征摘要】
1.基于指针网络非结构文本抽取方法,其特征在于,包括以下步骤:
步骤1:单词编码:通过BERT模型获得句子中各个单词的向量表示,得到单词序列向量的表示;
步骤2:将指针指向表示实体或事件的文本片段,所述指针指向单词序列向量,对于非实体或事件的文本片段的开始字符用指针指向开始标记S,指针指向后形成文本片段表示向量;
步骤3:运用图注意力网络模型和图注意力机制,将向量形成完全图并进行多次信息传播,得到步骤2中的各向量的最终表示,所述完全图包括节点与节点之间边;
步骤4:将实体识别任务和事件的类型检测任务转化为所述完全图中代表实体提及和事件提及的节点的类型分类任务,将共指消解,关系抽取,事件元素角色分类任务转化为所述完全图中两两节点之间边的分类任务,进行分类任务求解,得到所述完全图中每个节点的类型和两两节点之间边的类型,所述节点代表了每个实体或事件的文本片段的标签类型,所述两两节点之间边代表了任意两个文本片段之间的共指消解、关系抽取、事件元素角色标签。
2.求解非结构文本的多任务联合训练方法,其特征在于:
构建非结构文本的完全图,提取完全图中的节点与两两节点之间边,节点表示实体或事件提及的类型分类任务,两两节点之间边表示共指消解或关系抽取或事件元素角色分类任务;
将多个实体和多个事件分别构建实体分类标签和事件分类标签;
构建节点的标签空间,所述节点的标签空间包括实体分类标签和事件分类标签,还包括一个其他类型;
依据种类构建节点边的标签空间,所述节点边的标签空间包括多个共指消解标签、多个关系分类标签、多个事件元素角色标签和一个其他类型;
对节点与节点边进行类型预测:对节点采用前馈神经网络加softmax分类器计算节点的标签空间中的类型得分,对两节点的特征向量进行拼接后采用前馈神经网络加softmax分类器计算节点边的标签空间的类型得分;
对所有节点和所有节点边进行上述计算,得到每个节点和节点边的类型。
3.根据权利要求1所述的基于指针网络非结构文本抽取方法,其特征在于,所述步骤1中,单词的向量表示具体为:
对于输入的包括单词的文档D={w1,w2,...,wn},其中,单词来源于词汇库,wi∈Wv,i=1,...,n,n表示文档单词的个数,v表示词汇库的大小,W表示词汇库空间,采用BERT预训练语言模型得到文档单词序列的向量表示序列:X={x1,x2,...,xn},xi∈Rd,i=1,...,n,xi是一个实数空间的d维向量,表示第i个单词的向量表示,R代表实数空间。
4.根据权利要求3所述的基于指针网络非结构文本抽取方法,其特征在于,所述步骤2中指针的使用具体包括两部分,第一部分为实体或事件的文本片段边界检测,第二部分为实体或事件提及的向量表示:
第一部分具体为:
S4.1:将输入文档D={w1,w2,...,wn}的单词序列向量表示X={x1,x2,...,xn},xi∈Rd,i=1,2,...,n添加开始单词标记<START>的单词向量,各元素初始化为0,记为x0,再将X={x0,x1,...,xn}作为指针网络的输入,经过指针网络的Encoder得到序列的隐藏状态E={e0,e1,...,en},解码器第i步输出的词汇分布概率为:
p(Ci|C1,...,Ci-1)=softmax(ui)
其中v,We,Wd为可以学习...
【专利技术属性】
技术研发人员:不公告发明人,
申请(专利权)人:成都数之联科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。