一种基于BERT类模型的阅读理解式新闻文本事件抽取方法技术

技术编号:27975656 阅读:43 留言:0更新日期:2021-04-06 14:09
本发明专利技术提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法包括:收集中文新闻文本语料,并获得事件类型表和论元表;将事件类型表和论元表排序;根据论元表设计不同问题;划分训练集、验证集和测试集;标注标训练集和验证集;利用训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;使用事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。本发明专利技术将事件抽取任务转化为机器阅读理解任务,提高了事件抽取的准确性,并且能够根据不同的需求设计不同的事件类型以及关注的论元,泛化能力强。

【技术实现步骤摘要】
一种基于BERT类模型的阅读理解式新闻文本事件抽取方法
本专利技术涉及自然语言处理(NLP)领域,具体而言,涉及一种基于BERT类模型的阅读理解式新闻文本事件抽取方法。
技术介绍
随着网络的日益发达和自媒体的日益增多,人们每天接触到大量的信息,如何高效快速地从海量信息中获取有用的信息逐渐成为人们关注的焦点。事件抽取(EventExtraction)任务的目标是从非结构化信息中抽取出用户感兴趣的事件,并以结构化的方式呈现给用户,该任务包含两大子任务:(1)事件的检测和类型识别,这是一个多分类任务;(2)事件论元的抽取。目前主流的事件抽取技术有三种:基于特征抽取的模式匹配方法、基于机器学习的方法、基于深度学习的方法;基于模式匹配的方法需要人工总结出事件的模板,在预测阶段将代抽取的文本与已有的模板进行正则匹配,因此该方法在特定的领域能取得较高性能,但泛化能力很差;基于机器学习的方法将事件抽取任务的两个子任务转化为分类问题,利用传统的机器学习方法处理分类任务,该任务需要大规模的标注数据,但是泛化能力强;基于深度学习的方法仍然将事件抽取任务视为多分类任务,但是该方法能够自动提取和学习事件的特征,用于分类任务。BERT类模型是一种基于Transformer双向编码器提取特征的语言表征模型,目的是通过联合调节所有层的上下文来预先训练文本的深度双向表示,具有强大的特征抽取能力。根据不同的下游任务需求,预训练好的BERT类模型可以在不改变核心模型的情况下对网络结构进行微调,如问答任务和分类任务。阅读理解任务需要通过交互从书面文字中提取与构造文章语义,机器阅读理解考虑利用人工智能技术,使计算机具有和人类一样理解文章的能力。
技术实现思路
本专利技术旨在提供一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,以解决上述目前主流的事件抽取技术中存在的问题。本专利技术一个实施例提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,包括如下步骤:步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;步骤4,将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;步骤6,利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。在一个实施例中,步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。在一个实施例中,给不同中文新闻文本语料一个独特的id标签。在一个实施例中,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到事件类型多分类模型的方法为:(1)在BERT类模型上层接上softmax层;(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练,得到初始事件类型多分类模型;(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型,根据初始事件类型多分类模型在验证集上的表现调整训练参数,得到最终的事件类型多分类模型。在一个实施例中,第二种形式的指定格式数据包含的论元信息包括论元的对应问题有无答案,答案的起止位置、问题的长度以及该问题是否有多个答案的信息。在一个实施例中,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到问题有无答案的二分类模型的方法为:(1)在BERT类模型上层接上softmax层;(2)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,经过训练得到初始问题有无答案的二分类模型;(3)将验证集中第二种形式的指定格式数据输入初始问题有无答案的二分类模型,根据初始问题有无答案的二分类模型在验证集上的表现调整训练参数,得到最终的问题有无答案的二分类模型。在一个实施例中,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到论元抽取模型的方法为:(1)将训练集中第二种形式的指定格式数据输入BERT类模型进行训练,得到初始论元抽取模型;(2)将验证集中第二种形式的指定格式数据输入初始论元抽取模型,根据初始论元抽取模型在验证集上的表现调整训练参数,得到最终的初始论元抽取模型。在另一个实施例中,所述新闻文本事件抽取方法还包括:步骤8,对预测结果做事件类型和论元去重,得到测试集上事件类型和论元抽取的最终结果。进一步的,对预测结果做事件类型和论元去重的方法为:将测试集中单个样本的事件类型和对应论元的抽取结果分别存入对应的列表中,每新存入一个事件类型或对应论元时,判断对应的列表中是否已经出现过要存入的事件类型或对应论元,若尚未出现过则存入列表,否则不存入,处理完成预测结果后,对应列表中的结果即是测试集上事件类型和论元抽取的最终结果。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:本专利技术提供的一种基于BERT类模型的阅读理解式新闻文本事件抽取方法中,通过训练BERT类模型将事件抽取任务拆分为事件类型预测任务、问题有无答案预测任务以及论元抽取任务。由于事件类型抽取任务比较简单,为了充分利用事件类型信息,将事件类型抽取任务任务转化为多分类预测任务;考虑到部分论元在文本中可能不存在,因此增加问题有无答案这一预测任务,使模型能够更加准确地定位到问题对应的答案;在论元抽取任务中,对文本每一个位置做二分类任务,预测该位置是否为该论元的起止位置。本专利技术将事件抽取任务转化为机器阅读理解任务,提高了事件抽取的准确性,并且能够根据不同的需求设计不同的事件类型以及关注的论元,泛化能力强。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术一个实施例的基于BERT类模型的阅读理解式新闻文本事件抽取方法的流程框图。图2为本专利技术另一个实施例的基于BERT类模型的阅读理解式新闻文本事件抽取方法的流程框图具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附本文档来自技高网
...

【技术保护点】
1.一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,包括如下步骤:/n步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;/n步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;/n步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;/n步骤4,将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;/n步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;/n步骤6,利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;/n步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。/n

【技术特征摘要】
1.一种基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,包括如下步骤:
步骤1,收集中文新闻文本语料,并从中文新闻文本语料中获得事件类型表和事件类型表中每一个事件类型对应的论元表;
步骤2,将事件类型表中的事件类型和论元表中的论元按照顺序排列;
步骤3,根据论元表设计不同问题,问题的先后顺序与论元表中的论元先后顺序相同;
步骤4,将步骤1收集的中文新闻文本语料按比例划分为训练集、验证集和测试集,并根据事件类型表和论元表对训练集和验证集进行标注;
步骤5,将标注好的训练集和验证集转换为指定格式数据;该指定格式数据包括两种形式:第一种形式的指定格式数据包含事件类型信息;第二种形式的指定格式数据包含论元信息;
步骤6,利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,分别得到事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型;
步骤7,使用训练得到的事件类型多分类模型、问题有无答案的二分类模型以及论元抽取模型对测试集做预测,得到测试集的事件类型以及对应的论元抽取的预测结果。


2.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤4中每个标注好的中文新闻文本语料涉及的事件类型、对应论元以及论元在文本语料中的起止位置都可获得。


3.根据权利要求2所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,给不同中文新闻文本语料一个独特的id标签。


4.根据权利要求1所述的基于BERT类模型的阅读理解式新闻文本事件抽取方法,其特征在于,步骤6中利用转换为指定格式数据的训练集和验证集输入BERT类模型进行训练和验证,得到事件类型多分类模型的方法为:
(1)在BERT类模型上层接上softmax层;
(2)将训练集中第一种形式的指定格式数据输入BERT类模型进行训练,得到初始事件类型多分类模型;
(3)将验证集中第一种形式的指定格式数据输入初始事件类型多分类模型,根据初始事件类型多分类模型在验证集上的表现调整训练参数,得到最终的事件类型多分类模型。


5.根据...

【专利技术属性】
技术研发人员:贾宇郭先会张明亮董弋粲蒋彧忱沈宜
申请(专利权)人:成都三零凯天通信实业有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1