一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法技术

技术编号：29873161 阅读：26 留言：0更新日期：2021-08-31 23:48

本发明专利技术提供一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，属于计算机技术领域。方法使用综合知识辅助模型进行判断，通过引入海量文本预训练而成，包含了大量语义语法知识信息的预训练语言模型作为事件抽取模型的网络结构单元，并使用混合抗噪声干扰的远程监督特征的模型算法，加入圆形约束条件下的梯度方向对抗干扰训练，该方法不仅能表示更加丰富的文本信息，同时也能在引入远程监督特征时，通过对抗干扰训练，增加模型对噪声误差的抵抗能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法
本专利技术涉及一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，特别是涉及计算机数据处理

技术介绍
随着互联网时代下信息化建设的不断深化，海量互联网信息呈现出爆发式的增长，如何利用互联网信息辅助行业决策的制定，成为企业甚至政府国家当下关注的重点。来自互联网的信息往往以文字的形式出现，通常来自新闻文稿、论坛回复等渠道，一般呈现出无结构、多冗余的特性，需要加以阅读理解定位到文字中的关键信息，过滤无关内容。事件抽取即是将非机构化文本的数据内容以结构化的形式进行呈现，将文字中的表达关键意图以事件为单位进行提取，将无结构的文字信息转换为机构化的事件信息，进而用于后续的趋势分析、事理知识图谱建立、舆情消息预警等一系列工作之中，是信息提取工程中重要的一环。传统的事件提取往往依赖于人工的全面参与，面对海量的互联网资讯信息，传统的事件分析借助人工在庞大的文章报告中阅读查找相关信息数据，并进行整理记录,需要消耗大量人力资源。为解决信息结构化的过程中消耗大量人力的问题，近年来提出使用机器学习的方式对事件模式进行识别提取。机器学习的方式通过识别文字中的事件模式，将符合该模式的文本片段以结构化的方式进行提取，能够实现批量化的机器文本处理，大大改善了人工阅读提取文字结构化信息中的效率问题。但传统机器学习事件模式模板的制定依旧需要依赖领域内专家的知识，借助深度学习通过标注过的数据，自动学习相应的事件模式特征，成为了近年来事件结构化抽取的新方向。考虑

【技术保护点】
1.一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，其特征在于，包括如下步骤：/n步骤1、训练数据语料采集，通过爬虫获取的互联网文本数据，将文本形式的数据通过爬虫以.txt文件形式进行存储；/n步骤2、对标注数据进行预处理操作；/n步骤3、根据事件定义对文本进行标注，并将标注的数据补充加入远程监督知识库，完成数据的标注，并按照7：1：2的比例分为训练集、验证集和测试集；/n步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建；/n步骤5、使用训练数据进行事件抽取模型的训练，并通过验证数据集和测试数据集评估训练的好坏，通过多轮的迭代，选择表现最优的模型进行使用；/n步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取，对新的文本在经过数据预处理清洗后，先将其与远程监督知识库进行匹配，将同时在远程知识库和新的待预测文本中出现的触发词，加入到文本的远程特征当中，输入模型预测事件的触发类型和相关的事件参与元素。/n

【技术特征摘要】
1.一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，其特征在于，包括如下步骤：
步骤1、训练数据语料采集，通过爬虫获取的互联网文本数据，将文本形式的数据通过爬虫以.txt文件形式进行存储；
步骤2、对标注数据进行预处理操作；
步骤3、根据事件定义对文本进行标注，并将标注的数据补充加入远程监督知识库，完成数据的标注，并按照7：1：2的比例分为训练集、验证集和测试集；
步骤4、对事件抽取的事件检测和事件参与元素提取两个阶段分别进行模型的构建；
步骤5、使用训练数据进行事件抽取模型的训练，并通过验证数据集和测试数据集评估训练的好坏，通过多轮的迭代，选择表现最优的模型进行使用；
步骤6、使用训练好的模型对新的无标注互联网文本数据进行事件的预测和提取，对新的文本在经过数据预处理清洗后，先将其与远程监督知识库进行匹配，将同时在远程知识库和新的待预测文本中出现的触发词，加入到文本的远程特征当中，输入模型预测事件的触发类型和相关的事件参与元素。

2.根据权利要求1所述的一种融合预训练语言模型与抗噪声干扰远程监督信息的事件抽取方法，所述事件抽取模型的构建具体步骤为：
通过自注意力机制进行语言建模，使用多头注意力捕捉文本中多角度的特征信息；
通过一个双层的神经网络FFN进行特征转换提取，采用ReLU做为激活函数层，并使用层归一化进行特征归一化处理；
利用残差连接的方式结合预训练模型的各个层，通过循环迭代，得到...

【专利技术属性】
技术研发人员：李书棋，高阳，
申请(专利权)人：南京大学，江苏万维艾斯网络智能产业创新中心有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人