一种采用多头注意力进行多级特征融合抽取的方法技术

技术编号:39948107 阅读:20 留言:0更新日期:2024-01-08 23:05
一种采用多头注意力进行多级特征融合抽取的方法,涉及信息抽取领域,包括:获取句子中每个单词的上下文表示并进行识别;利用识别结果计算每对单词的评分向量;计算标签概率;对二维表格进行填充并训练;解码出谓词并过滤掉其他成分;使用多级特征融合器串联特征并将其作为迭代抽取的输入;使用迭代抽取建模每次抽取之间固有的依赖关系,即利用多头注意力模块进行参数提取、标签分类和标签嵌入,获取每个单词在此次抽取的上下文嵌入,通过多级特征融合器将其与其它特征进行串联并作为下一次迭代抽取的输入,重复抽取直至抽取完所有谓词。本发明专利技术降低了抽取结果的冗余度,提高了抽取结果的覆盖度和实用性,有助于抽取结果在下游任务中的应用。

【技术实现步骤摘要】

本专利技术涉及信息抽取,具体涉及一种采用多头注意力进行多级特征融合抽取的方法


技术介绍

1、随着现代互联网技术的快速发展,由此产生了海量的非结构化文本数据,自然语言处理中的信息抽取技术被用于从海量的非结构化文本数据中抽取出结构化的信息,这些结构化信息常用关系三元组(实体1;关系;实体2)的形式进行表示。传统的信息抽取方法侧重于在小型同质语料库上通过预定义的一组目标关系来回答狭义的、定义明确的请求。为此,传统的信息抽取方法一般是将目标关系以及手工抽取模式或从手工标记的培训示例中学习的模式作为输入。而将传统的信息抽取方法应用于新领域时,不仅需要用户自己命名目标关系,还需要用户手动定义新的抽取规则或手动注释新的训练数据。因此,传统的信息抽取方法依赖于广泛的人类参与。

2、目前,为了减少传统信息抽取方法所需的手动操作,引入了一种新的抽取范式:openie(开放域信息抽取)。与传统的信息抽取方法不同,开放域信息抽取并不局限于预先知道的一小组目标关系,而是抽取文本中发现的所有类型的目标关系。开放域信息抽取可使用领域独立的句法特征等信息从文本中抽取关系,并本文档来自技高网...

【技术保护点】

1.一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤S1中,所述语言模型为Bert模型。

3.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤S1中,采用两个MLP识别每个单词的上下文表示的头部和尾部。

4.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤S2中,通过双仿射注意力机制来学习单词对之间的相互作用,以识别嵌套关系词;然后使用双仿射评分函数计算每对单词的评分向量。<...

【技术特征摘要】

1.一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s1中,所述语言模型为bert模型。

3.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s1中,采用两个mlp识别每个单词的上下文表示的头部和尾部。

4.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s2中,通过双仿射注意力机制来学习单词对之间的相互作用,以识别嵌套关系词;然后使用双仿射评分函数计算每对单词的评分向量。

5.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s3中,将步骤s2获得的评分向量输入到softmax函数中,计算每个标签属于p、a、s、o、n的概率;其中p表示关系词,a表示参数,s表示关系三...

【专利技术属性】
技术研发人员:李欣邵靖淇段建勇何丽王昊张晴肖彬武志刚
申请(专利权)人:北方工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1