金融领域舆情监控中的事件抽取方法、装置和计算机设备制造方法及图纸

技术编号:27685532 阅读:18 留言:0更新日期:2021-03-17 03:52
本申请涉及一种金融领域舆情监控中的事件抽取方法、装置和计算机设备。所述方法包括:从金融新闻文本中获取样本数据,对样本数据进行预处理,得到样本集;获取预先设置的多个不同的事件抽取模型,根据样本集通过K折交叉验证的方式对事件抽取模型进行训练,得到每个事件抽取模型的K个事件抽取子模型;将待抽取文本进行预处理后输入每个事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;采用投票方式对每个事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。采用本方法能够减小累计误差。

【技术实现步骤摘要】
金融领域舆情监控中的事件抽取方法、装置和计算机设备
本申请涉及计算机
,特别是涉及一种金融领域舆情监控中的事件抽取方法、装置和计算机设备。
技术介绍
“事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析、资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。因为文本的复杂和任务的复杂,金融领域事件抽取任务仍然存在许多挑战。事件抽取任务主要有两种模型,即管道(Pipeline)模型、联合(Joint)模型。前者先抽取事件,然后识别事件主体,或后确定事件。后者同时抽取事件和主体。管道模型的优势是将任务分为抽取事件和抽取主体两个任务,两个任务独立建模,实现较容易,模型可以独立训练,灵活性较高,且在预测时,完成第一个任务的预测后会过滤掉一些数据,减少第二个任务需要预测的数据量。但是,其忽略了两个任务之间的内在联系和依赖关系,且可能存在误差累积问题。联合模型可以充分利用两个任务之间的潜在信息,能够缓解管道模型误差累积的缺点,但其推断时仍然存在误差积累问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决事件抽取时的误差累积的方法、装置、计算机设备和存储介质。一种金融领域舆情监控中的事件抽取方法,所述方法包括:从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。在其中一个实施例中,还包括:从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。在其中一个实施例中,还包括:获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。在其中一个实施例中,还包括:分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。一种金融领域舆情监控中的事件抽取装置,所述装置包括:数据预处理模块,用于从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;K折训练模块,用于获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;预测模块,用于将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;投票模块,用于采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。在其中一个实施例中,所述数据预处理模块还用于从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。在其中一个实施例中,所述K折训练模块还用于获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;获取管道模型作为第四事件抽取模型。在其中一个实施例中,所述投票模块还用于分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。上述金融领域舆情监控中的事件抽取方法、装置、计算机设备和存储介质,通过对数据进行预处理,然后通过预先构建的多个事件抽取模型,采用K折交叉验证的方式训练得到每个事件抽取模型的K个事件抽取子模本文档来自技高网...

【技术保护点】
1.一种金融领域舆情监控中的事件抽取方法,其特征在于,所述方法包括:/n从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;/n获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;/n将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;/n采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。/n

【技术特征摘要】
1.一种金融领域舆情监控中的事件抽取方法,其特征在于,所述方法包括:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。


2.根据权利要求1所述的方法,其特征在于,所述从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集,包括:
从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;
对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;
对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。


3.根据权利要求1所述的方法,其特征在于,所述获取预先设置的多个不同的事件抽取模型,包括:
获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;
获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;
获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;
获取管道模型作为第四事件抽取模型。


4.根据权利要求3所述的方法,其特征在于,所述采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组,包括:
分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;
对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。


5.一种金融领域舆情监控中的事件抽取装置,其特征在于,所述装置包括:<...

【专利技术属性】
技术研发人员:宗天元李煜丑晓慧
申请(专利权)人:宁波深擎信息科技有限公司上海深擎信息科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1