一种融合TextCNN与Talking Heads Attention的关系抽取方法技术

技术编号：41295507 阅读：6 留言：0更新日期：2024-05-13 14:44

一种融合TextCNN与Talking Heads Attention的关系抽取方法，包括以下步骤：步骤1：获取中文文本的训练语料数据；步骤2：获取语言模型的训练语料数据并进行预处理；步骤3：将编码后的文本输入MacBERT模型，通过BERT的输入层得到每个词的词向量表示；步骤4：标注语料输入到Talking Heads Attention结构中进行特征提取；步骤5：将MacBERT获得的词向量输入到TextCNN结构中，利用预训练模型的优势，减少模型训练的复杂度和时间成本；步骤6：将步骤4输出的特征与步骤5输出的特征进行特征交互；步骤7：通过前馈神经网络层输出实体关系三元组；通过以上步骤对中文文本进行关系抽取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文文本关系抽取，具体为一种融合textcnn与talkingheadsattention的关系抽取方法。

技术介绍

1、现有的中文文本关系抽取技术中，与英文领域相比，中文关系抽取的发展相对缓慢。目前，仍缺乏一个完整且带注释的大规模汉语知识库来训练神经网络和远程监督模型。此外，汉语的语法结构比英语更为复杂多变，这也给现有的中文抽取系统或方法带来了挑战。

2、公开号为cn112084790a专利文献公开了一种基于预训练卷积神经网络的关系抽取方法及系统，它一方面利用预训练模型提取目标实体的语义信息，另一方面使用卷积神经网络提取句子级的语义信息。公开号为cn110502749a专利文献公开了一种基于双层注意力机制与双向gru的文本关系抽取方法，该专利技术利用实体位置信息和实体标签信息扩充字向量特征，实现文本信息的向量化。上述这些方法对于文本特征提取准确度低，其次难以捕捉文本中不同位置的实体之间的关系。

3、近年来，随着深度学习技术的进步，研究人员开始致力于构建无需复杂特征工程的关系抽取模型。神经关系抽取(nre)成为了关注的焦点，它利用神经网络自动学习语义特征。现在，许多神经网络模型已被广泛应用于关系抽取任务，如卷积神经网络(cnn)和递归神经网络(rnn)，并取得了显著的成果。这些模型在特征提取的深度和模型的精确度上已经超越了传统基于特征的方法。

4、因此，申请人提出一种融合textcnn与talking heads attention的关系抽取方法。

技术实现思路

1、本专利技术的目的是为了解决现有实体关系抽取中特征提取准确度低和难以捕捉文本中不同位置的实体之间的关系的技术问题，而提供的一种融合textcnn与talking headsattention的关系抽取方法。

2、为了解决上述技术问题，本专利技术采用的技术方案为：

3、一种融合textcnn与talkingheads attention的关系抽取方法，包括以下步骤：

4、步骤1：获取中文文本的训练语料数据；

5、步骤2：获取语言模型的训练语料数据并进行预处理；

6、步骤3：将编码后的文本输入macbert模型，通过bert的输入层得到每个词的词向量表示；

7、步骤4：标注语料输入到talking heads attention结构中进行特征提取；

8、步骤5：将macbert获得的词向量输入到textcnn结构中，利用预训练模型的优势，减少模型训练的复杂度和时间成本；

9、步骤6：将步骤4输出的特征与步骤5输出的特征进行特征交互；

10、步骤7：通过前馈神经网络层输出实体关系三元组；

11、通过以上步骤对中文文本进行关系抽取。

12、在步骤1中，包括以下子步骤：

13、步骤1-1：确定数据源：选择适合任务的中文文本数据源；包括互联网、公开可用的数据集、公司内部的文本库；确保数据源具有多样性，以便模型能够适应各种语言和语境；

14、步骤1-2：数据收集：从数据源中提取出所需的中文文本数据；进行筛选和清洗，以确保数据的准确性和质量。

15、在步骤2中，包括以下子步骤：

16、步骤2-1：数据清洗：在这个步骤，处理无效、不完整或者重复的数据；包括删除标点符号、数字、特殊字符；进行拼写检查和校正，以及删除停用词；

17、步骤2-1：获取实体关系抽取模型的训练语料数据并进行标注，形成标注语料；

18、步骤2-3：准备需要转换的文本，并使用berttokenizer工具进行分词和编码。

19、在步骤3中，包括以下子步骤；

20、步骤3-1：利用大规模的无标签数据进行训练；

21、步骤3-2：通过遮盖词汇、句子级别的任务和其他语言模型的预测任务来学习词汇和句子表示；

22、步骤3-3：通过预训练，macbert学习到丰富的语言知识和语义信息；包括embedding层、transformer编码器、输出层，其中(1)-(3)对macbert结构计算公式解释说明；

23、(1)embedding层是词嵌入，位置嵌入，类型嵌入之和，分别表示词信息，位置信息，句子对信息；

24、(2)双向transformer编码器是多层编码单元的堆叠，每个编码单元包括自注意力模块，残差网络，层归一化结构，dropout层，用于提取语义信息，整体计算过程如下；

25、位置编码公式

26、

27、

28、其中，pe表示位置编码，pos表示位置，dmodel表示模型大小，这个公式表示位置编码是位置和模型大小的函数，sin表示正弦函数，cos表示余弦函数；

29、

30、attenton是自注意力模块计算公式，q是查询矩阵,k是想要关注的内容，qkt是点乘操作，dmodel表示模型大小，v是权重矩阵，sofmax表示概率分布函数；

31、ffn＝max(0,xw1+b1)w2+b2；

32、其中ffn残差网络模块，w1，w2是权重矩阵，b1，b2表示偏置。

33、在步骤4中，包括以下子步骤：

34、步骤4-1：将输入序列分成两个路径，一个路径通过编码器编码，另一个路径通过解码器解码；

35、步骤4-2：在解码器的每个时间步，将解码器编码器输出的隐藏状态与来自编码器的隐藏状态进行注意力权重加权平均；

36、步骤4-3：将加权平均后的隐藏状态数去到解码器的下一个时间步；

37、步骤4-4：在每个时间步，使用解码器的自注意力机制计算解码器隐藏状态的注意力权重；

38、步骤4-5：将解码器的输出和编码器的输出进行注意力权重加权平均，得到最终的输出。

39、在步骤5中，包括以下子步骤：

40、步骤5-1：输入层负责将文本数据转化为模型可以处理的矩阵形式，在textcnn中，输入层将文本转化为一个矩阵，每一行表示一个词向量，每一列表示一个词，在这个过程中，使用词嵌入技术将每个词转化为一个固定长度的向量，以便于模型处理；

41、步骤5-2：卷积层是textcnn模型的核心部分，它通过卷积操作提取文本的特征；在nlp领域，一般卷积核只进行一维的滑动，即卷积核的宽度与词向量的维度等宽，卷积核只进行一维的滑动，在textcnn模型中，使用多个不同尺寸的卷积核，以捕捉不同尺寸的特征；

42、步骤5-3：激活函数层，常用的激活函数包括relu和sigmoid，用于增加模型的非线性表达能力；

43、步骤5-4：池化层也是textcnn模型的一个重要部分；它通过池化操作对特征进行降维，在textcnn模型的池化层中，使用最大值池化(max-pooling)方法，这种方法可以减少模型的参数数量，本文档来自技高网...

【技术保护点】

1.一种融合TextCNN与Talking Heads Attention的关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤1中，包括以下子步骤：

3.根据权利要求1所述的方法，其特征在于，在步骤2中，包括以下子步骤：

4.根据权利要求1所述的方法，其特征在于，在步骤3中，包括以下子步骤；

5.根据权利要求1至4其中之一所述的方法，其特征在于，在步骤4中，包括以下子步骤：

6.根据权利要求5所述的方法，其特征在于，在步骤5中，包括以下子步骤：

【技术特征摘要】

1.一种融合textcnn与talking heads attention的关系抽取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，在步骤1中，包括以下子步骤：

3.根据权利要求1所述的方法，其特征在于，在步骤2中，包括以...

【专利技术属性】
技术研发人员：王春亮，余肖生，姚洁仪，
申请(专利权)人：三峡大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人