一种基于BERT类模型的阅读理解式新闻文本事件抽取方法技术

技术编号：27975656 阅读：65 留言：0更新日期：2021-04-06 14:09

本发明专利技术提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法包括：收集中文新闻文本语料，并获得事件类型表和论元表；将事件类型表和论元表排序；根据论元表设计不同问题；划分训练集、验证集和测试集；标注标训练集和验证集；利用训练集和验证集输入BERT类模型进行训练和验证，分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型；使用事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测，得到测试集的事件类型以及对应的论元抽取的预测结果。本发明专利技术将事件抽取任务转化为机器阅读理解任务，提高了事件抽取的准确性，并且能够根据不同的需求设计不同的事件类型以及关注的论元，泛化能力强。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于BERT类模型的阅读理解式新闻文本事件抽取方法
本专利技术涉及自然语言处理(NLP)领域，具体而言，涉及一种基于BERT类模型的阅读理解式新闻文本事件抽取方法。
技术介绍
随着网络的日益发达和自媒体的日益增多，人们每天接触到大量的信息，如何高效快速地从海量信息中获取有用的信息逐渐成为人们关注的焦点。事件抽取(EventExtraction)任务的目标是从非结构化信息中抽取出用户感兴趣的事件，并以结构化的方式呈现给用户，该任务包含两大子任务：(1)事件的检测和类型识别，这是一个多分类任务；(2)事件论元的抽取。目前主流的事件抽取技术有三种：基于特征抽取的模式匹配方法、基于机器学习的方法、基于深度学习的方法；基于模式匹配的方法需要人工总结出事件的模板，在预测阶段将代抽取的文本与已有的模板进行正则匹配，因此该方法在特定的领域能取得较高性能，但泛化能力很差；基于机器学习的方法将事件抽取任务的两个子任务转化为分类问题，利用传统的机器学习方法处理分类任务，该任务需要大规模的标注数据，但是泛化能力强；基于深度学习的方法仍然将事件抽取任务视为多分类任务，但是该方法能够自动提取和学习事件的特征，用于分类任务。BERT类模型是一种基于Transformer双向编码器提取特征的语言表征模型，目的是通过联合调节所有层的上下文来预先训练文本的深度双向表示，具有强大的特征抽取能力。根据不同的下游任务需求，预训练好的BERT类模型可以在不改变核心模型的情况下对网络结构进行微调，如问答任务和分类任务。阅读理解任务需要通过交互从书面文...

【技术保护点】
1.一种基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，包括如下步骤：/n步骤1，收集中文新闻文本语料，并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表；/n步骤2，将事件类型表中的事件类型和论元表中的论元按照顺序排列；/n步骤3，根据论元表设计不同问题，问题的先后顺序与论元表中的论元先后顺序相同；/n步骤4，将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集，并根据事件类型表和论元表对训练集和验证集进行标注；/n步骤5，将标注好的训练集和验证集转换为指定格式数据；该指定格式数据包括两种形式：第一种形式的指定格式数据包含事件类型信息；第二种形式的指定格式数据包含论元信息；/n步骤6，利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型；/n步骤7，使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测，得到测试集的事件类型以及对应的论元抽取的预测结果。/n

【技术特征摘要】
1.一种基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，包括如下步骤：
步骤1，收集中文新闻文本语料，并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表；
步骤2，将事件类型表中的事件类型和论元表中的论元按照顺序排列；
步骤3，根据论元表设计不同问题，问题的先后顺序与论元表中的论元先后顺序相同；
步骤4，将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集，并根据事件类型表和论元表对训练集和验证集进行标注；
步骤5，将标注好的训练集和验证集转换为指定格式数据；该指定格式数据包括两种形式：第一种形式的指定格式数据包含事件类型信息；第二种形式的指定格式数据包含论元信息；
步骤6，利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型；
步骤7，使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测，得到测试集的事件类型以及对应的论元抽取的预测结果。

2.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。

3.根据权利要求2所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，给不同中文新闻文本语料一个独特的id标签。

4.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法，其特征在于，步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证，得到事件类型多分类模型的方法为：
(1)在BERT类模型上层接上softmax层；
(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练，得到初始事件类型多分类模型；
(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型，根据初始事件类型多分类模型在验证集上的表现调整训练参数，得到最终的事件类型多分类模型。

5.根据...

【专利技术属性】
技术研发人员：贾宇，郭先会，张明亮，董弋粲，蒋彧忱，沈宜，
申请(专利权)人：成都三零凯天通信实业有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人