基于事件抽取的金融数据分析方法及装置制造方法及图纸

技术编号:28421411 阅读:13 留言:0更新日期:2021-05-11 18:29
本发明专利技术公开了一种基于事件抽取的金融数据分析方法及装置,其中,该方法包括:获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;从每条资讯的资讯标题中,抽取结构化的金融事件数据;将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。本发明专利技术能够有效提升金融数据分析预测的准确性。

【技术实现步骤摘要】
基于事件抽取的金融数据分析方法及装置
本专利技术涉及人工智能领域,尤其涉及一种基于事件抽取的金融数据分析方法及装置。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着金融行业的不断发展,对社会经济运行的重要性越来越强,对金融数据进行有效分析,是整个社会经济活动的重要工作之一。金融时间序列数据,是金融领域中随时间推移具有一定变化规律的时序数据,例如,股票数据、期货数据等。由于金融时间序列数据是时间序列数据的一种,具有很强的时间性,前后数据往往存在较强的依赖关系或周期关系,可基于统计的方式根据现有数据对未来数据进行预测。由于金融时间序列数据受多种因素影响,具有非线性、非平稳性、复杂性等特点,是金融数据分析中极具挑战性的研究课题。目前,现有技术中主要采用数据建模的方式,对金融数据进行分析预测。但因金融数据受到政策、基本面、市场情绪、自然灾害、重大风险提示等多方面事件因素影响,若只针对数据本身进行分析,很难准确预测未来的走势。在金融领域,各种金融事件的载体(例如,新闻、评论等资讯数据),能够在一定程度上反映出市场走向与投资者的情绪,从而影响投资决策和市场走势。对于金融事件的抽取,目前主要是依靠研究人员采用人工总结的方式来实现,这种人工总结方式不仅效率低下,且要求研究人员具有丰富的专业背景,门槛较高。因而,如何提供一种自动抽取金融事件、自适应分析金融数据走势的分析方法,以提升金融数据预测的精确度与效率,是本领域亟待解决的技术问题。
技术实现思路
本专利技术实施例中提供了一种基于事件抽取的金融数据分析方法,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该方法包括:获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;从每条资讯的资讯标题中,抽取结构化的金融事件数据;将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。本专利技术实施例中还提供了一种基于事件抽取的金融数据分析方法装置,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该装置包括:数据获取模块,用于获取资讯数据,资讯数据包含:多条资讯的资讯标题和对应的日期信息;金融事件抽取模块,用于从每条资讯的资讯标题中,抽取结构化的金融事件数据;金融主体情感分析模块,用于将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;特征转换模块,用于统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;金融时间序列分析模块,用于将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,其中,金融时间序列用于反映待分析金融数据的数据变化趋势。本专利技术实施例中还提供了一种计算机设备,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述基于事件抽取的金融数据分析方法。本专利技术实施例中还提供了一种计算机可读存储介质,用以解决现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的方法,存在预测精确度和效率均比较低下的技术问题,该计算机可读存储介质存储有执行上述基于事件抽取的金融数据分析方法的计算机程序。本专利技术实施例中,从采集的资讯数据中抽取结构化的金融事件数据,并将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类,进而统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合后,输入到预先训练好的金融时间序列分析网络模型中,输出待分析金融数据的金融时间序列,以反映待分析金融数据的数据变化趋势。与现有技术中依靠人工总结方式抽取金融事件并对金融数据走势进行预测的技术方案相比,本专利技术实施例中,自动对资讯数据进行处理,抽取出金融事件数据,并通过对金融事件进行情感分类,进而将不同情感分类的金融事件进行量化后引入到金融数据分析中,能够有效提升金融数据分析预测的准确性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。在附图中:图1为本专利技术实施例中提供的一种基于事件抽取的金融数据分析方法流程图;图2为本专利技术实施例中提供的一种资讯数据获取流程图;图3为本专利技术实施例中提供的一种事件抽取流程图;图4为本专利技术实施例中提供的一种数据去重流程图;图5为本专利技术实施例中提供的一种事件抽取算法模型示意图;图6为本专利技术实施例中提供的一种对金融事件数据进行情感分析的流程图;图7为本专利技术实施例中提供的一种基于注意力机制的金融主体情感分析模型示意图;图8为本专利技术实施例中提供的一种数据特征变换流程图;图9为本专利技术实施例中提供的一种基于事件抽取的金融数据分析方法具体实现流程图;图10为本专利技术实施例中提供的一种基于事件抽取的金融数据分析装置示意图;图11为本专利技术实施例中提供的一种数据获取模块的结构示意图;图12为本专利技术实施例中提供的一种金融事件抽取模块的结构示意图;图13为本专利技术实施例中提供的一种特征转换模块的结构示意图;图14为本专利技术实施例中提供的一种可选的基于事件抽取的金融数据分析装置示意图;图15为本专利技术实施例中提供的一种计算机设备示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚明白,下面结合附图对本专利技术实施例做进一步详细说明。在此,本专利技术的示意性实施例及其说明用于解释本专利技术,但并不作为对本专利技术的限定。为了解决人工总结模式下无法高效分析金融数据走势的技术问题,本专利技术实施例中提供了一种基于事件抽取的金融数据分析方法,支持通过事件抽取方法将一定时间内的非结构化的事件文本数据转化为结构化的数据,并通过金融主题情感分类方法将事件分为利好、利空以及中性三类,有效地将多种影响因素量化为影响因子。将影响因子作为原有数据的一个偏差向量完成数据特征的扩充,使用基于深度学习的时间序列分析算法训练,最终得到一本文档来自技高网
...

【技术保护点】
1.一种基于事件抽取的金融数据分析方法,其特征在于,包括:/n获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;/n从每条资讯的资讯标题中,抽取结构化的金融事件数据;/n将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;/n统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;/n将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列,其中,所述金融时间序列用于反映所述待分析金融数据的数据变化趋势。/n

【技术特征摘要】
1.一种基于事件抽取的金融数据分析方法,其特征在于,包括:
获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;
从每条资讯的资讯标题中,抽取结构化的金融事件数据;
将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出每个金融事件的情感分类;
统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量;
将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列,其中,所述金融时间序列用于反映所述待分析金融数据的数据变化趋势。


2.如权利要求1所述的方法,其特征在于,获取资讯数据,包括:
获取目标网站的网址信息;
根据目标网站的网址信息,向所述目标网站发送HTTP请求,获取所述目标网站的页面内容;
根据预先设定的关键字,使用正则表达式,从所述目标网站的页面内容中,匹配出相应的资讯标题。


3.如权利要求2所述的方法,其特征在于,根据预先设定的关键字,使用正则表达式匹配所述页面内容中相应的资讯标题,包括:
从所述目标网站的页面内容中解析出一个或多个子页面的网址信息;
根据各个子页面的网址信息,向各个子页面发送HTTP请求,获取各个子页面的页面内容;
根据预先设定的关键字,使用正则表达式,从所述目标网站和各个子页面的页面内容中,匹配出相应的资讯标题。


4.如权利要求1所述的方法,其特征在于,从每条资讯的资讯标题中,抽取结构化的金融事件数据,包括:
获取预先设定的事件触发词;
根据预先设定的事件触发词,利用SimHash算法,对获取的资讯标题进行去重处理;
从去重处理后的资讯标题中,抽取结构化的金融事件数据。


5.如权利要求4所述的方法,其特征在于,根据预先配置的事件触发词,利用SimHash算法,对获取的资讯数据进行去重处理,包括:
根据预先配置的事件触发词,对每个资讯标题进行分词,得到多个特征向量;
利用Hash函数,计算各个特征向量的Hash值;
根据每个资讯标题各个特征向量的Hash值和对应的权重值,计算每个资讯标题的SimHash值;
根据两个资讯标题的SimHash值,计算两个资讯标题的海明距离,作为两个资讯标题的相似度;
如果两个资讯标题的相似度小于预设阈值,则删除其中一个资讯标题。


6.如权利要求4所述的方法,其特征在于,从去重处理后的资讯标题中,抽取结构化的金融事件数据,包括:
使用BERT模型,对每个资讯标题的句子进行编码,得到每个资讯标题对应的句子向量以及句子中各个事件触发词的向量;
根据每个资讯标题对应的句子向量,识别出金融事件的事件类型;
根据事件类型对应的句子向量以及句子中各个事件触发词的向量,识别出每个资讯标题中包含的事件元素实体;
对每个资讯标题中包含的各个事件元素实体进行角色识别,得到结构化的金融事件数据。


7.如权利要求1所述的方法,其特征在于,在将抽取的金融事件数据输入到预先训练好的金融主体情感分析模型中,输出所述金融事件数据的情感分类结果之前,所述方法还包括:
对结构化的金融事件数据进行情感分类标注;
根据标注后的金融事件数据,生成第一训练样本数据;
根据第一训练样本数据,训练一个基于注意力机制的金融主体情感分析模型,其中,所述金融主体情感分析模型包含:词嵌入层、网络层、注意力机制层和全连接层,所述词嵌入层用于将结构化的金融数据转换为一个固定长度的矩阵向量;所述网络层用于将词嵌入层输出的矩阵向量输入到双向长短期记忆网络模型进行特征提取,得到特征向量;所述注意力机制层用于将所述网络层输出的特征向量进行聚合和加权处理;所述全连接层用于对所述注意力机制层输出的特征向量进行融合,使用softmax函数得到金融事件数据的情感分类结果。


8.如权利要求1所述的方法,其特征在于,统计各个情感分类对应的金融事件量,生成一个偏差向量,与待分析金融数据的特征向量进行融合,得到融合后的特征向量,包括:
根据预先设定的金融数据特征,生成待分析金融数据的特征向量,对生成的特征向量进行归一化处理,得到所述待分析金融数据归一化后的特征向量;
统计多个时间点各个情感分类对应的金融事件量,并根据每个预设时间点各个情感分类的金融事件量,生成每个预设时间点对应的偏差向量;
将所述多个时间点对应的偏差向量与所述待分析金融数据归一化的特征向量进行拼接,得到融合后的特征向量。


9.如权利要求1所述的方法,其特征在于,在将融合后的特征向量,输入到预先训练好的金融时间序列分析网络模型中,输出所述待分析金融数据的金融时间序列之前,所述方法还包括:
对金融数据的特征向量进行数据变化趋势标注;
根据标注后的金融数据,生成第二训练样本数据;
根据第二训练样本数据,训练一个金融时间序列分析网络模型。


10.一种基于事件抽取的金融数据分析装置,其特征在于,包括:
数据获取模块,用于获取资讯数据,所述资讯数据包含:多条资讯的资讯标题和对应的日期信息;
金融事件抽取模块,用于从每条资讯的资讯标...

【专利技术属性】
技术研发人员:王立林杨丹施生燊徐克宝
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1