【技术实现步骤摘要】
本专利技术涉及信息抽取,具体涉及一种采用多头注意力进行多级特征融合抽取的方法。
技术介绍
1、随着现代互联网技术的快速发展,由此产生了海量的非结构化文本数据,自然语言处理中的信息抽取技术被用于从海量的非结构化文本数据中抽取出结构化的信息,这些结构化信息常用关系三元组(实体1;关系;实体2)的形式进行表示。传统的信息抽取方法侧重于在小型同质语料库上通过预定义的一组目标关系来回答狭义的、定义明确的请求。为此,传统的信息抽取方法一般是将目标关系以及手工抽取模式或从手工标记的培训示例中学习的模式作为输入。而将传统的信息抽取方法应用于新领域时,不仅需要用户自己命名目标关系,还需要用户手动定义新的抽取规则或手动注释新的训练数据。因此,传统的信息抽取方法依赖于广泛的人类参与。
2、目前,为了减少传统信息抽取方法所需的手动操作,引入了一种新的抽取范式:openie(开放域信息抽取)。与传统的信息抽取方法不同,开放域信息抽取并不局限于预先知道的一小组目标关系,而是抽取文本中发现的所有类型的目标关系。开放域信息抽取可使用领域独立的句法特征等信息
...【技术保护点】
1.一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤S1中,所述语言模型为Bert模型。
3.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤S1中,采用两个MLP识别每个单词的上下文表示的头部和尾部。
4.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤S2中,通过双仿射注意力机制来学习单词对之间的相互作用,以识别嵌套关系词;然后使用双仿射评分函数计算每
...【技术特征摘要】
1.一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s1中,所述语言模型为bert模型。
3.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s1中,采用两个mlp识别每个单词的上下文表示的头部和尾部。
4.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s2中,通过双仿射注意力机制来学习单词对之间的相互作用,以识别嵌套关系词;然后使用双仿射评分函数计算每对单词的评分向量。
5.根据权利要求1所述的一种采用多头注意力进行多级特征融合抽取的方法,其特征在于,步骤s3中,将步骤s2获得的评分向量输入到softmax函数中,计算每个标签属于p、a、s、o、n的概率;其中p表示关系词,a表示参数,s表示关系三...
【专利技术属性】
技术研发人员:李欣,邵靖淇,段建勇,何丽,王昊,张晴,肖彬,武志刚,
申请(专利权)人:北方工业大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。