一种基于文本核心信息抽取的金融因果关系链构建方法技术

技术编号:38530276 阅读:25 留言:0更新日期:2023-08-19 17:04
本发明专利技术公开了一种基于文本核心信息抽取的金融因果关系链构建方法,属于自然语言处理的信息抽取领域。具体方法包括:步骤1,爬取金融新闻数据,并对新闻文本进行分句,构建数据集;步骤2,用BERT分类模型对步骤1得到的文本进行因果关系二分类;步骤3,将步骤2得到的具有因果关系文本送入BERT模型进行预训练后,送入BiLSTM

【技术实现步骤摘要】
一种基于文本核心信息抽取的金融因果关系链构建方法


[0001]本专利技术属于自然语言处理的信息抽取领域,具体涉及因果关系二分类、因果关系抽取和语义相似度计算。

技术介绍

[0002]在大数据时代,越来越多的人开始利用金融新闻进行投资理财。金融领域的文本信息量大且价值高,尤其是其中的隐式因果关系事件包含着巨大的潜在利用价值,而现如今针对海量金融新闻事件挖掘、分析、金融知识总结提取应用工作基本处于空白状态。通过本项目的研究,从真实金融新闻文本中挖掘隐式因果关系事件中隐含的重要信息、抽取因果关系和构建金融事件因果关系链,有助于了解金融领域事件更深层的演化逻辑,对于金融领域分析和决策具有一定的指导意义。
[0003]目前,因果关系识别的方法主要分为两大类:基于模式匹配的方法和基于深度学习的方法。基于模式匹配的方法需要人工总结因果关系关键标识词,构建因果关系模板,通过因果关系模板与原句匹配发现因果关系。基于深度学习的方法需要构建统计模型或神经网络自动学习文本的因果特征,无须预先学习语义知识即可实现因果关系的抽取。例如,使用双向LSTM编解码器提取本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于文本核心信息抽取的金融因果关系链构建方法,其特征在于:包括以下步骤:S1:爬取金融新闻数据,并对新闻文本进行分句,构建文本数据集;S2:用BERT分类模型对文本进行因果关系二分类;S3:对具有因果关系的文本用BERT模型进行预训练,送入BiLSTM

CRF模型进行BIO序列标注,构建BERT

BiLSTM

CRF模型;S4:对经过BIO序列标注的文本原因和结果部分进行核心信息抽取,然后用Sentence

BERT将其转换成向量,计算文本间的余弦相似度,根据相似度矩阵构建因果关系链。2.根据权利要求1所述的基于文本核心信息抽取的金融领域因果关系链构建方法,其特征在于,所述S1的具体过程为:S101:从东方财富网爬取新闻,对新闻进行分句处理;S102:利用Transformers包tokenizer.encode()方法对文本数据编码并统一编码格式;S103:人工筛选设置标签,将有因果关系的句子标记为tag:1,无因果关系的句子标记为tag:0;S104:将处理好的数据保存为json格式,按比例划分为训练集、验证集和测试集。3.根据权利要求1所述的基于文本核心信息抽取的金融领域因果关系链构建方法,其特征在于,所述S2的具体过程为:S201:利用BERT网络对S104得到的数据进行预训练;S202:载入transformer里的BertForSequenceClassification模块,并完成分类模型的微调任务;S203:定义一个train()函数完成模型的训练;S204:将外来样本送入BERT分类模型中,进行分类;S205:对错误的分类结果进行人工反馈纠正。4.根据权利要求1所述的基于文本核心信息抽取的金融领域因果关系链构建方法,其特征在于,所述S3的具体过程为:S301:将S...

【专利技术属性】
技术研发人员:孙晓梅许韬杨江
申请(专利权)人:江苏科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1