【技术实现步骤摘要】
金融领域舆情监控中的事件抽取方法、装置和计算机设备
本申请涉及计算机
,特别是涉及一种金融领域舆情监控中的事件抽取方法、装置和计算机设备。
技术介绍
“事件抽取”是舆情监控领域和金融领域的重要任务之一,“事件”在金融领域是投资分析、资产管理的重要决策参考;事件也是知识图谱的重要组成部分,事件抽取是进行图谱推理、事件分析的必要过程。因为文本的复杂和任务的复杂,金融领域事件抽取任务仍然存在许多挑战。事件抽取任务主要有两种模型,即管道(Pipeline)模型、联合(Joint)模型。前者先抽取事件,然后识别事件主体,或后确定事件。后者同时抽取事件和主体。管道模型的优势是将任务分为抽取事件和抽取主体两个任务,两个任务独立建模,实现较容易,模型可以独立训练,灵活性较高,且在预测时,完成第一个任务的预测后会过滤掉一些数据,减少第二个任务需要预测的数据量。但是,其忽略了两个任务之间的内在联系和依赖关系,且可能存在误差累积问题。联合模型可以充分利用两个任务之间的潜在信息,能够缓解管道模型误差累积的缺点,但其推断时仍然存在误差积累问题。
技术实现思路
基于此,有必要针对上述技术问题,提供一种能够解决事件抽取时的误差累积的方法、装置、计算机设备和存储介质。一种金融领域舆情监控中的事件抽取方法,所述方法包括:从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折 ...
【技术保护点】
1.一种金融领域舆情监控中的事件抽取方法,其特征在于,所述方法包括:/n从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;/n获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;/n将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;/n采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。/n
【技术特征摘要】
1.一种金融领域舆情监控中的事件抽取方法,其特征在于,所述方法包括:
从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集;所述样本集中每条样本包括:文本ID、事件和实体;
获取预先设置的多个不同的事件抽取模型,根据所述样本集通过K折交叉验证的方式对所述事件抽取模型进行训练,得到每个所述事件抽取模型的K个事件抽取子模型;
将待抽取文本进行预处理后输入每个所述事件抽取模型的K个事件抽取子模型,输出待抽取文本对应的预测文本ID、预测事件和预测实体,根据预测文本ID、预测事件和预测实体构建三元组;
采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组。
2.根据权利要求1所述的方法,其特征在于,所述从金融新闻文本中获取样本数据,对所述样本数据进行预处理,得到样本集,包括:
从金融新闻文本中获取样本数据;所述样本数据包括:文本ID、文本内容、事件类型和事件主体;
对所述样本数据中包含的事件类型和事件主体进行归集,得到包含一个文本内容、一个事件类型和一个事件主体的预处理样本数据;
对所述预处理样本数据进行去符号文本,以及对空格进行替换,并转化为预设训练格式的样本,根据所述样本,得到样本集。
3.根据权利要求1所述的方法,其特征在于,所述获取预先设置的多个不同的事件抽取模型,包括:
获取RoBETa-wwm-ext、BiLSTM以及CRF融合的第一事件抽取模型;
获取ZEN、BiLSTM和CRF融合的第二事件抽取模型;
获取RoBERTa-wwm-ext+和多层指针网络融合的第三事件抽取模型;
获取管道模型作为第四事件抽取模型。
4.根据权利要求3所述的方法,其特征在于,所述采用投票方式对每个所述事件抽取模型的K个事件抽取子模型输出的三元组进行投票,确定真实三元组,包括:
分别对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型对应的K个事件抽取子模型输出的三元组进行投票,得到第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组;
对第一事件抽取模型、第二事件抽取模型、第三事件抽取模型以及第四事件抽取模型输出的预测三元组进行投票,得到真实三元组。
5.一种金融领域舆情监控中的事件抽取装置,其特征在于,所述装置包括:<...
【专利技术属性】
技术研发人员:宗天元,李煜,丑晓慧,
申请(专利权)人:宁波深擎信息科技有限公司,上海深擎信息科技有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。