当前位置: 首页 > 专利查询>南京大学专利>正文

一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法技术

技术编号:29873161 阅读:26 留言:0更新日期:2021-08-31 23:48
本发明专利技术提供一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,属于计算机技术领域。方法使用综合知识辅助模型进行判断,通过引入海量文本预训练而成,包含了大量语义语法知识信息的预训练语言模型作为事件抽取模型的网络结构单元,并使用混合抗噪声干扰的远程监督特征的模型算法,加入圆形约束条件下的梯度方向对抗干扰训练,该方法不仅能表示更加丰富的文本信息,同时也能在引入远程监督特征时,通过对抗干扰训练,增加模型对噪声误差的抵抗能力。

【技术实现步骤摘要】
一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
本专利技术涉及一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,特别是涉及计算机数据处理

技术介绍
随着互联网时代下信息化建设的不断深化,海量互联网信息呈现出爆发式的增长,如何利用互联网信息辅助行业决策的制定,成为企业甚至政府国家当下关注的重点。来自互联网的信息往往以文字的形式出现,通常来自新闻文稿、论坛回复等渠道,一般呈现出无结构、多冗余的特性,需要加以阅读理解定位到文字中的关键信息,过滤无关内容。事件抽取即是将非机构化文本的数据内容以结构化的形式进行呈现,将文字中的表达关键意图以事件为单位进行提取,将无结构的文字信息转换为机构化的事件信息,进而用于后续的趋势分析、事理知识图谱建立、舆情消息预警等一系列工作之中,是信息提取工程中重要的一环。传统的事件提取往往依赖于人工的全面参与,面对海量的互联网资讯信息,传统的事件分析借助人工在庞大的文章报告中阅读查找相关信息数据,并进行整理记录,需要消耗大量人力资源。为解决信息结构化的过程中消耗大量人力的问题,近年来提出使用机器学习的方式对事件模式进行识别提取。机器学习的方式通过识别文字中的事件模式,将符合该模式的文本片段以结构化的方式进行提取,能够实现批量化的机器文本处理,大大改善了人工阅读提取文字结构化信息中的效率问题。但传统机器学习事件模式模板的制定依旧需要依赖领域内专家的知识,借助深度学习通过标注过的数据,自动学习相应的事件模式特征,成为了近年来事件结构化抽取的新方向。考虑到互联网信息庞大,内容种类复杂繁多,提高深度学习模型在不同事件间的迁移和泛化能力,成为了互联网事件信息抽取的一个难题。通常做法是使用远程监督的方式,引入外部的知识辅助模型的预测。远程监督算法假设:对于一个已有的知识图谱中的一个结构化事件,假设外部知识库中任何包含其中实体的句子,在一定程度上都反映了这种关系。基于这个假设,远程监督算法可以基于一个标注好的小型知识图谱,给外部文档库中的句子标注关系标签,相当于做了样本的自动标注,因此是一种半监督的算法。但远程监督除了带来外部的知识信息外,同时也会带来错误的指导信息,引入了噪声的干扰影响模型的判断的准确性。RNN和CNN在文本表示能力上存在的不足也影响了事件的预测提取。因此,研究如何使用表达能力更强的神经网络模型和使用外部知识辅助深度模型进行事件结构化抽取,并同时减少误差噪声干扰是需要考虑的问题。
技术实现思路
专利技术目的:一个目的是提出一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,以解决现有技术存在的上述问题,丰富文本信息的同时,通过对抗干扰训练,增加模型对噪声误差的抵抗能力。技术方案:第一方面,提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,该方法包括如下步骤:步骤1、训练数据语料采集,通过爬虫获取的互联网文本数据,将文本形式的数据通过爬虫以.txt文件形式进行存储。步骤2、对标注数据进行预处理操作,包括去除html标签和特殊符号,将文本以句子或段落的形式进行分割为短文本。步骤3、根据事件定义对文本存在事件的事件触发词、主体、客体、时间、地点、事件类型进行标注,并将标注的数据补充加入远程监督知识库,完成数据的标注;将标注后的数据和远程监督知识库进行匹配,将匹配成功的触发词加入该样本的远程监督信息中,并按照7:1:2的比例分为训练集、验证集和测试集。步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建。步骤5、使用训练数据进行事件抽取模型的训练,并通过验证数据集和测试数据集评估训练的好坏,通过多轮的迭代,选择表现最优的模型进行使用。步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取,对新的文本在经过数据预处理清洗后,先将其与远程监督知识库进行匹配,将同时在远程知识库和新的待预测文本中出现的触发词,加入到文本的远程特征当中,输入模型预测事件的触发类型和相关的事件参与元素。在第一方面的一些可实现方式中,所述事件抽取模型的构建具体步骤为:通过自注意力机制进行语言建模,使用多头注意力捕捉文本中多角度的特征信息;通过一个双层的神经网络FFN进行特征转换提取,采用ReLU做为激活函数层,并使用层归一化进行特征归一化处理;利用残差连接的方式结合预训练模型的各个层,通过循环迭代,得到预训练模型提取的特征;将远程监督触发词出现的位置使用该触发词在远程监督库中的类型编号进行标注,得到一个离散的序列特征,通过远程监督嵌入层,映射到低维空间;将预训练模型提取的特征和远程监督特征进行拼接;在远程监督嵌入层进行学习和参数更新的过程中,加入梯度方向的扰动,计算模型反向传播在远程监督特征嵌入层的梯度;保留远程监督特征嵌入层原始参数,使用得到的扰动步长添加对抗扰动,再重新进行一次前向和反向传播,得到新的梯度;恢复远程监督特征嵌入层原始参数,使用添加扰动后的新梯度进行模型整体参数更新;重复多次训练过程,选取结果最好的模型进行使用;将新的互联网文本数据通过预处理,输入模型;预测是否出现事件,检测出现事件时,提取结构化事件元素。有益效果:本专利技术提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,通过结合预训练语言模型与远程监督信息进行自动事件结构化抽取,并通过加入扰动对抗训练的方式,在引入外部知识提高模型效果的同时,有效缓解远程监督带来的误差噪声信息,提高了事件抽取的效果。综合知识辅助模型进行判断,通过引入海量文本预训练而成,包含了大量语义语法知识信息的预训练语言模型作为事件抽取模型的网络结构单元,并使用混合抗噪声干扰的远程监督特征的模型算法,该方法不仅能表示更加丰富的文本信息,同时也能在引入远程监督特征时,通过对抗干扰训练,增加模型对噪声误差的抵抗能力。附图说明图1是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法模型结构图。图2是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法注意力机制特征提取示意图。图3是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法远程监督特征层结构图。图4是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法实验效果图。图5是一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法加入圆形约束的示意图。具体实施方式为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。在一个实施例中,本专利技术提出了一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,该方法包括如下步骤:步骤1、训练数据语料采集,通过爬虫获取的互联网文本数据,将文本形式的数据通过爬虫以.txt文件形式进行存储。...

【技术保护点】
1.一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,其特征在于,包括如下步骤:/n步骤1、训练数据语料采集,通过爬虫获取的互联网文本数据,将文本形式的数据通过爬虫以.txt文件形式进行存储;/n步骤2、对标注数据进行预处理操作;/n步骤3、根据事件定义对文本进行标注,并将标注的数据补充加入远程监督知识库,完成数据的标注,并按照7:1:2的比例分为训练集、验证集和测试集;/n步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建;/n步骤5、使用训练数据进行事件抽取模型的训练,并通过验证数据集和测试数据集评估训练的好坏,通过多轮的迭代,选择表现最优的模型进行使用;/n步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取,对新的文本在经过数据预处理清洗后,先将其与远程监督知识库进行匹配,将同时在远程知识库和新的待预测文本中出现的触发词,加入到文本的远程特征当中,输入模型预测事件的触发类型和相关的事件参与元素。/n

【技术特征摘要】
1.一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,其特征在于,包括如下步骤:
步骤1、训练数据语料采集,通过爬虫获取的互联网文本数据,将文本形式的数据通过爬虫以.txt文件形式进行存储;
步骤2、对标注数据进行预处理操作;
步骤3、根据事件定义对文本进行标注,并将标注的数据补充加入远程监督知识库,完成数据的标注,并按照7:1:2的比例分为训练集、验证集和测试集;
步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建;
步骤5、使用训练数据进行事件抽取模型的训练,并通过验证数据集和测试数据集评估训练的好坏,通过多轮的迭代,选择表现最优的模型进行使用;
步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取,对新的文本在经过数据预处理清洗后,先将其与远程监督知识库进行匹配,将同时在远程知识库和新的待预测文本中出现的触发词,加入到文本的远程特征当中,输入模型预测事件的触发类型和相关的事件参与元素。


2.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法,所述事件抽取模型的构建具体步骤为:
通过自注意力机制进行语言建模,使用多头注意力捕捉文本中多角度的特征信息;
通过一个双层的神经网络FFN进行特征转换提取,采用ReLU做为激活函数层,并使用层归一化进行特征归一化处理;
利用残差连接的方式结合预训练模型的各个层,通过循环迭代,得到...

【专利技术属性】
技术研发人员:李书棋高阳
申请(专利权)人:南京大学江苏万维艾斯网络智能产业创新中心有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1