一种基于self-attention模型的内容实体与关系抽取方法技术

技术编号：41358732 阅读：31 留言：0更新日期：2024-05-20 10:09

本发明专利技术旨在提供一种定位精准、识别率高、效率高且成本低的基于self‑attention模型的内容实体与关系抽取方法。本发明专利技术步骤：a.在编码器最后一层建立self‑attention模型；b.确定目标位置在各个其他位置所需投入注意力的多少；c.将其他位置投入的注意力与该位置携带的信息量进行计算以及加和，作为目标位置的输出；d.在self‑attention模型的后侧设置线性层；e.利用线性层对self‑attention模型中包含的各个位置的特征值之间的关系进行前馈计算，最终得到与目标起始词关系最近的终止词，实现实体词与实体关系抽取。本发明专利技术可应用于人工智能、大数据、自然语言处理、信息抽取领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能、大数据、自然语言处理、信息抽取领域，尤其涉及一种基于self-attention模型的内容实体与关系抽取方法。

技术介绍

1、实体与关系抽取指的是，从一段文本中抽取出其中所包含的实体信息，以及对应实体之间的关系信息。现有技术多是通过编码器模型(例如bert)，将文本各个对应位置进行bio编码处理，之后对生成的结果进行解码，以确定实体词在文本中的位置。而对于实体词之间的关系，同样对其对应位置进行编码处理，以主客体关系为例，用1表示关系主体，2表示关系客体。结合其结果与实体词抽取结果，共同确定文本中目标位置的实体词是关系主体，还是关系客体。而对于多实体类型，多关系类型的任务，一般的解决方法是成倍的增加目标编码值个数，例如一种实体类型需要3个目标编码值，两种实体类型就需要6个目标编码值，以此类推。另一种解决方法是为每种类型实体、类型配备一个独立模型。

2、上述方法中，通过位置关系的实体词抽取及实体关系抽取，最大的缺陷就是如若一段话中多个相同的实体词关系对，则只能知道该关系的起始词是哪些，终止词是哪些。无法确...

【技术保护点】

1.一种基于self-attention模型的内容实体与关系抽取方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法，其特征在于，该方法还包括以下步骤：

3.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法，其特征在于，在所述步骤b中，每一个位置的特征值都会与其他位置的特征值进行关联度计算，算得关联值的具体步骤为：

4.根据权利要求3所述的一种基于self-attention模型的内容实体与关系抽取方法，其特征在于，在所述步骤c中，将步骤b得...

【技术特征摘要】

1.一种基于self-attention模型的内容实体与关系抽取方法，其特征在于，该方法包括以下步骤：

2.根据权利要求1所述的一种基于self-attention模型的内容实体与关系抽取方法，其特征在于，该方法还包括以下步骤：

4.根据权利要求3所述的一种...

【专利技术属性】
技术研发人员：庞艺光，陈润天，姜海珠，
申请(专利权)人：珠海必优科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人