本发明专利技术涉及一种基于BERT的多模型融合提取事件主体的方法,属于数据处理技术领域。该方法包括:对爬取数据进行预处理,得到训练样本和预测样本;对训练样本和预测样本进行嵌入操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列;采用多个基于BERT预训练网络的不同复杂度的单模型,利用训练样本输入序列对所述单模型进行训练,并优化网络参数;将预测样本输入序列输入到经训练后的多个单模型,输出多个模型结果;对所述多个模型结果进行融合,得到预测样本的最终预测结果。本发明专利技术通过采用不同复杂度的模型,保证模型的多样化,调整参数进行训练,将多个模型的检测结果进行融合,进一步提升检测的准确率。
A method of event subject extraction based on multi model fusion of Bert
【技术实现步骤摘要】
一种基于BERT的多模型融合提取事件主体的方法
本专利技术涉及数据处理
,具体涉及一种基于BERT的多模型融合提取事件主体的方法。
技术介绍
事件识别是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析,资产管理的重要决策参考。面向金融领域的事件主体抽取任务属于事件抽取任务中的限定域事件抽取,是信息抽取和知识图谱构建的重要环节之一。“事件识别”的复杂性在于事件类型和事件主体的判断,只有发生特定事件类型的主体才是提取目标。目前主要有两类方法:基于模式匹配的方法和基于机器学习的方法。基于模式匹配的方法是指对事件主体的抽取是在一些模式的指导下进行的,所以模式准确性是影响整个方法性能的重要因素。该类方法依赖于文本的具体形式(语言、领域和文档格式等),获取模板的过程费时费力,具有很强的专业性,而且,制定的模式很难覆盖所有的事件类型,当语料发生变化时,需要重新获取模式。鉴于基于模式匹配的方法可移植性低、召回率差,基于机器学习的事件主体抽取成为主流方法。基于机器学习的事件抽取方法的代表方法是基于有监督学习的事件抽取,即将事件主体抽取建模成一个序列标注问题,提取特征向量后再使用有监督的分类器进行回归。本文采用了基于机器学习的方法来从金融事件文本中抽取事件主体。BERT(Pre-trainingofDeepBidirectionalTransformersforLanguageUnderstanding)通过预训练技术,刷新了11项NLP任务的最优结果,将自然语言处理中的预训练技术发展到了普适的程度。BERT模型进一步增强了词向量模型的泛化能力,充分描述字符级、词级、句子级甚至句间关系特征。因此,本文均采用BERT作为编码器,并在单个模型的结果上进行融合,进一步提升事件主体的提取准确度。
技术实现思路
针对现有技术的不足,结合最新技术BERT预训练网络编码,并使用多种网络结构解码,从而可以使用差异化较大的模型做融合,达到提取特定事件类型的主体的目的。为实现上述目的,本专利技术提供了如下技术方案:一种基于BERT的多模型融合提取事件主体的方法,包括以下步骤:步骤1:对爬取到的原始数据进行预处理,得到事件主体的训练样本和预测样本;步骤2:对训练样本和预测样本进行嵌入操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列;步骤3:采用多个基于BERT预训练网络的不同复杂度的单模型,利用训练样本输入序列对所述单模型进行训练,并优化网络参数;步骤4:将预测样本输入序列输入到经训练后的多个单模型,输出多个模型结果;步骤5:对所述多个模型结果进行融合,得到预测样本的最终预测结果。进一步的,所述步骤1具体包括:步骤11:去除爬取数据中不包含信息的无效字符。步骤12:将经步骤11处理后的爬取数据分为训练样本和预测样本。进一步的,所述步骤2具体包括:步骤21:针对训练样本和预测样本的所有事件主体,将每个事件主体的两个输入拼接为字符串序列;步骤22:对所述字符串序列进行字符嵌入、位置嵌入、段落嵌入的操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列。进一步的,所述每个事件主体的两个输入包括:事件的相关描述文本和事件类型。进一步的,所述字符串序列形式为:[CLS]事件类型[SEP]事件的相关描述文本[SEP]。进一步的,所述步骤3中的多个基于BERT预训练网络的不同复杂度的单模型包括:BERT预训练网络+全连接层模型;BERT预训练网络+自注意力层+全连接层模型;BERT预训练网络+卷积层+自注意力层+全连接层模型。进一步的,步骤4具体包括:针对BERT预训练网络+全连接层模型,将预测样本输入序列经BERT预训练网络编码为向量输出,传递到全连接层进行解码,得到模型输出,提取模型输出中前20个概率最大的事件主体作为第一模型结果;针对BERT预训练网络+自注意力层+全连接层模型,将预测样本输入序列经BERT预训练网络编码为向量输出,输入到自注意力层,再传递到全连接层,得到模型输出,提取模型输出中前20个概率最大的事件主体作为第二模型结果;针对BERT预训练网络+卷积层+自注意力层+全连接层模型,将预测样本输入序列经BERT预训练网络编码为向量输出,输入到两个1维卷积层得到卷积输出,卷积输出与向量输出相加后输入到自注意力层和全连接层,得到模型输出,提取模型输出中前20个概率最大的事件主体作为第三模型结果。进一度的,所述步骤5具体包括:针对字符个数小于80的样本,使用第一模型结果;针对字符个数大于等于80的样本,以权重比例第一模型结果:第二模型结果:第三模型结果=3:4:3进行融合;针对20个概率分布均匀的样本,以权重比例第一模型结果:第二模型结果:第三模型结果==3:3:4进行融合。进一步的,所述步骤5中加上权重后对于概率值小于0.5的答案,不考虑融合。进一步的,所述步骤5还包括:过滤错误答案:词性标注:调用预训练好的词性标注模型,对每个模型输出结果进行了词性标注,若词性是名词类,则保留此结果;否则,将其过滤掉,进而取第二模型结果和第三模型结果;停用词过滤:将主体中不可能出现的符号作为停用词,若预测结果出现停用词,则将其过滤。句法分析:事件主体中不可能包含完整的主谓宾结构,对检测出来的答案进行句法分析,如果包含完整的主谓宾结构,则将其过滤。进一步的,所述停用词包括但不限于标点符号,特殊动词,特殊名词等。本专利技术的有益效果:本专利技术提供了一种基于BERT的多个模型融合用来提取金融领域事件主体的方法。通过从简单到复杂设计模型的方式,保证模型的多样化,调整参数进行训练,将多个模型的检测结果进行融合,进一步提升检测的准确率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。图1示出本专利技术的基于BERT的多模型融合提取事件主体的方法流程图;图2示出本专利技术实施例的将字符串序列嵌入为BERT预训练网络要求的输入的示意图;图3示出本专利技术实施例的提取事件主体方案的结构示意图;图4示出本专利技术实施例的BERT+全连接层的网络结构图;图5示出本专利技术实施例的BERT+self-attention+全连接层的网络结构图;图6示出本专利技术实施例的BERT+卷积+self-attention+全连接层的网络结构图;图7示出本专利技术实施例的通过序列向量获取事件主体的流程图;图8示出本专利技术实施例的提取到的事件主体样例。具体实施方式这里将详细地对示例性实施例进行说本文档来自技高网...
【技术保护点】
1.一种基于BERT的多模型融合提取事件主体的方法,其特征在于,包括以下步骤:/n步骤1:对原始数据进行预处理,得到事件主体的训练样本和预测样本;/n步骤2:对训练样本和预测样本进行嵌入操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列;/n步骤3:采用多个基于BERT预训练网络的不同复杂度的单模型,利用训练样本输入序列对所述单模型进行训练,并优化网络参数;/n步骤4:将预测样本输入序列输入到经训练后的多个单模型,输出多个模型结果;/n步骤5:对所述多个模型结果进行融合,得到预测样本的最终预测结果。/n
【技术特征摘要】
1.一种基于BERT的多模型融合提取事件主体的方法,其特征在于,包括以下步骤:
步骤1:对原始数据进行预处理,得到事件主体的训练样本和预测样本;
步骤2:对训练样本和预测样本进行嵌入操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列;
步骤3:采用多个基于BERT预训练网络的不同复杂度的单模型,利用训练样本输入序列对所述单模型进行训练,并优化网络参数;
步骤4:将预测样本输入序列输入到经训练后的多个单模型,输出多个模型结果;
步骤5:对所述多个模型结果进行融合,得到预测样本的最终预测结果。
2.根据权利要求1所述的方法,其特征在于,所述步骤1具体包括:
步骤11:去除原始数据中不包含信息的无效字符;
步骤12:将经步骤11处理后的原始数据分为训练样本和预测样本。
3.根据权利要求1所述的方法,其特征在于,所述步骤2具体包括:
步骤21:针对训练样本和预测样本的所有事件主体,将每个事件主体的两个输入拼接为字符串序列;
步骤22:对所述字符串序列进行字符嵌入、位置嵌入、段落嵌入的操作,得到BERT预训练网络的训练样本输入序列和预测样本输入序列。
4.根据权利要求3所述的方法,其特征在于,所述每个事件主体的两个输入包括:事件的相关描述文本和事件类型。
5.根据权利要求4所述的方法,其特征在于,所述字符串序列形式为:[CLS]事件类型[SEP]事件的相关描述文本[SEP]。
6.根据权利要求1所述的方法,其特征在于,所述步骤3中的多个基于BERT预训练网络的不同复杂度的单模型包括:
BERT预训练网络+全连接层模型;
BERT预训练网络+自注意力层+全连接层模型;
BERT预训练网络+卷积层+自注意力层+全连接层模型。
7.根据权利要求6所述的方法,其...
【专利技术属性】
技术研发人员:李振,刘恒,赵兴莹,秦培歌,李勇辉,
申请(专利权)人:民生科技有限责任公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。