一种基于self-attention模型的内容实体与关系抽取方法技术

技术编号:41358732 阅读:31 留言:0更新日期:2024-05-20 10:09
本发明专利技术旨在提供一种定位精准、识别率高、效率高且成本低的基于self‑attention模型的内容实体与关系抽取方法。本发明专利技术步骤:a.在编码器最后一层建立self‑attention模型;b.确定目标位置在各个其他位置所需投入注意力的多少;c.将其他位置投入的注意力与该位置携带的信息量进行计算以及加和,作为目标位置的输出;d.在self‑attention模型的后侧设置线性层;e.利用线性层对self‑attention模型中包含的各个位置的特征值之间的关系进行前馈计算,最终得到与目标起始词关系最近的终止词,实现实体词与实体关系抽取。本发明专利技术可应用于人工智能、大数据、自然语言处理、信息抽取领域。

【技术实现步骤摘要】

本专利技术涉及人工智能、大数据、自然语言处理、信息抽取领域,尤其涉及一种基于self-attention模型的内容实体与关系抽取方法


技术介绍

1、实体与关系抽取指的是,从一段文本中抽取出其中所包含的实体信息,以及对应实体之间的关系信息。现有技术多是通过编码器模型(例如bert),将文本各个对应位置进行bio编码处理,之后对生成的结果进行解码,以确定实体词在文本中的位置。而对于实体词之间的关系,同样对其对应位置进行编码处理,以主客体关系为例,用1表示关系主体,2表示关系客体。结合其结果与实体词抽取结果,共同确定文本中目标位置的实体词是关系主体,还是关系客体。而对于多实体类型,多关系类型的任务,一般的解决方法是成倍的增加目标编码值个数,例如一种实体类型需要3个目标编码值,两种实体类型就需要6个目标编码值,以此类推。另一种解决方法是为每种类型实体、类型配备一个独立模型。

2、上述方法中,通过位置关系的实体词抽取及实体关系抽取,最大的缺陷就是如若一段话中多个相同的实体词关系对,则只能知道该关系的起始词是哪些,终止词是哪些。无法确定其具体的对应关系。本文档来自技高网...

【技术保护点】

1.一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,该方法还包括以下步骤:

3.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,在所述步骤b中,每一个位置的特征值都会与其他位置的特征值进行关联度计算,算得关联值的具体步骤为:

4.根据权利要求3所述的一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,在所述步骤c中,将步骤b得...

【技术特征摘要】

1.一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,该方法包括以下步骤:

2.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,该方法还包括以下步骤:

3.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法,其特征在于,在所述步骤b中,每一个位置的特征值都会与其他位置的特征值进行关联度计算,算得关联值的具体步骤为:

4.根据权利要求3所述的一种...

【专利技术属性】
技术研发人员:庞艺光陈润天姜海珠
申请(专利权)人:珠海必优科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1