一种基于金融市场行情的自动化新闻情感标定方法及装置制造方法及图纸

技术编号:21952761 阅读:26 留言:0更新日期:2019-08-24 17:50
本发明专利技术涉及一种基于金融市场行情的自动化新闻情感标定方法及装置,其中的方法包括步骤:采集一定时间段的历史新闻数据;获取前述一定时间段的对应的时间段金融市场行情历史数据;获取平均趋势斜率;获取即时新闻的语义向量与前述历史新闻的每一个语义向量获得M个相关度靠前历史新闻的相关度数值;获得M个相关度在前历史新闻的平均斜率趋势;标定新闻情感。本发明专利技术的有益效果是利用了历史新闻数据和历史行情数据,采用了LSTM指导训练成数据库,获取即时新闻与历史新闻的相关度和走势斜率,进而判断即时新闻的情感倾向;这种方式简洁可行,给人们提供有利的方法和装置。

An Automated Emotional Calibration Method and Device for News Based on the Market of Financial Market

【技术实现步骤摘要】
一种基于金融市场行情的自动化新闻情感标定方法及装置
本专利技术涉及电子文本与金融行业的交叉领域,尤其涉及利用历史的行情数据、历史的新闻数据对即时新闻的情感予以标定。
技术介绍
在国内外,新闻舆论、政府政策和机构文章对于金融市场颇有影响力,或者行情上涨或是形势跌落。人们或悲或喜,喜欢去总结历史市场规律,但人们又擅于健忘,并不像电子设备一样能有效追溯过往,从而预测未来。在互联网图文繁荣的今天,金融市场行情的预测行为与新闻图文裹挟在一起慢慢发展起来。人们知道热点事件对于金融市场行情的影响力度。在新闻情感与金融行情之间,确有大学等研究机构作出研究,但他们似乎偏向学术派,大多从算法、模型、公式的角度去开发新的方法或者结合到计算机存储介质的软件应用。新闻情感的倾向性分析是必要的,在大型资讯机构不乏专业的舆论风控专员,用于监视网络上的即时热点或者新闻,研判对市场行情的影响。然而他们仍缺少可行的、简洁的、高效的技术方案包括方法、装置来实现对这些即时新闻的情感判定,以在未来的金融市场中获利。
技术实现思路
本专利技术的目的在于提供一种基于金融市场行情的自动化新闻情感标定方法及装置,这里装置在可行的方式中具化在广泛的电子设备中,用来为人们对即时新闻情感的判断。本专利技术提供的基于金融市场行情的自动化新闻情感标定方法,该方法包括以下步骤:(1)采集一定时间段的历史新闻数据,包括主流媒体的政策、财经的图文和图文的发布日期;(2)获取前述一定时间段的对应的时间段金融市场行情历史数据,包括量化指标数值和日期;(3)将前述时间段划分出N个区间,将每个区间的每个历史新闻数据映射至相同区间的量化指标数值与日期的平均趋势斜率Y;(4)获取即时新闻的图文包括热点事件,采用即时新闻分词后的语义向量与前述历史新闻的每一个语义向量获得M个相关度靠前历史新闻的相关度数值Xi,i为1至M,M小于等于N;(5)根据步骤(3)获得上述每个历史新闻数据映射到日期的平均趋势斜率Y的数据库关系,获取步骤(4)中M个相关度在前历史新闻的平均斜率趋势Yi,i为1至M;(6)根据获得的Xi和Yi值,定义该即时新闻的情感S=∑XiYi,i为1至M,若S大于0,则该即时新闻为正面;若S小于0,则该即时新闻为负面。优选的是,步骤(3)中获得映射关系采用长短记忆网络LSTM方式,并对映射关系进行训练。优选的是,所述金融市场行情可以是股票、基金、黄金、期货或者债券。更优选的是,所述步骤(1)中,还包括对历史新闻数据去重的步骤,具体为设置最小日期间隔阈值,对最小日期间隔阈值之内的每个历史新闻求取两两内容文本的相关度,如果该相关度大于相关度预设值则剔除发布时间在后的历史新闻数据。优选的是,所述相关度预设值大于70%。优选的是,所述步骤(2))中,所述的金融市场行情历史数据对应的时间段,至少比所述历史新闻数据的时间段大一个金融市场交易日。本专利技术还提供一种对应的计算机储存介质,存储于电子设备中,该存储介质运行前面所述的基于金融市场行情的自动化新闻标定方法,且具有存储不断累积的历史新闻数据和金融市场行情历史数据的部分。本专利技术也一种基于金融市场行情的自动化新闻情感标定装置,该装置包括:历史新闻数据采集单元,用于采集一定时间段的历史新闻数据,包括主流媒体的政策、财经的图文和图文的发布日期;金融市场行情历史数据获取单元,用于获取前述一定时间段的对应的时间段金融市场行情历史数据,包括量化指标数值和日期;平均斜率趋势计算单元,用于将前述时间段划分出N个区间,将每个区间的每个历史新闻数据映射至相同区间的量化指标数值与日期的平均趋势斜率Y;即时新闻相关度匹配单元,用于获取即时新闻的图文包括热点事件,采用即时新闻分词后的语义向量与前述历史新闻的每一个语义向量获得M个相关度靠前历史新闻的相关度数值Xi,i为1至M,M小于等于N;高相关度历史新闻的斜率走势获取单元,用于根据前述平均斜率趋势计算单元获得上述每个历史新闻数据映射到日期的平均趋势斜率Y的数据库关系,获取步骤即时新闻相关度匹配单元中M个相关度在前历史新闻的平均斜率趋势Yi,i为1至M;新闻情感标定单元,用于根据即时新闻相关度匹配单和高相关度历史新闻的斜率走势获取单元分别获得的Xi和Yi值,定义该即时新闻的情感S=∑XiYi,i为1至M,若S大于0,则该即时新闻为正面;若S小于0,则该即时新闻为负面。优选的是,所述平均斜率趋势计算单元采用长短记忆网络LSTM方式获得映射关系,并对映射关系进行训练。优选的是,还包括历史新闻数据去重单元,其位于历史新闻数据采集单元中,用于以最小日期间隔阈值为基础,对最小日期间隔阈值之内的每个历史新闻求取两两内容文本的相关度,如果该相关度大于相关度预设值则剔除发布时间在后的历史新闻数据。本专利技术的有益效果是利用了历史新闻数据和历史行情数据,采用了LSTM指导训练成数据库,获取即时新闻与历史新闻的相关度和走势斜率,进而判断即时新闻的情感倾向;这种方式简洁可行,给人们提供有利的方法和装置。附图说明图1是本专利技术的一种基于金融市场行情的自动化新闻情感标定方法步骤示意图;图2是本专利技术的一种基于金融市场行情的自动化新闻情感标定装置构成步骤示意图之一;图3是本专利技术的一种基于金融市场行情的自动化新闻情感标定装置构成步骤示意图之二;其中,0-自动化新闻情感标定装置、1-历史新闻数据采集单元、2-金融市场行情历史数据获取单元、3-平均斜率趋势计算单元;4-即时新闻相关度匹配单元、5-高相关度历史新闻的斜率走势获取单元、6-新闻情感标定单元和7-历史新闻数据去重单元。具体实施方式下面进一步结合附图详细描述本专利技术的技术方案,但本专利技术的保护范围不局限于下面所述。如图1所示的基于金融市场行情的自动化新闻情感标定方法,该方法包括以下步骤:(1)采集一定时间段的历史新闻数据,包括主流媒体的政策、财经的图文和图文的发布日期;这里采集自2002年起最佳,互联网媒体图文包括自媒体开始涌现。时间段越长越好,但考虑存储空间和处理速度,时间段可为半年、一年、三年或者五年均可。在实际存储的内容中还可包括对图文的留言评论,与图文绑定在一起,需要说明的是留言评论有时候对于金融市场的情感倾向比较大;采集方式包括不规则数据的采集,可以采用爬虫方式,或者规则数据可以调用;(2)获取前述一定时间段的对应的时间段金融市场行情历史数据,包括量化指标数值和日期;由于新闻图文等舆论对于金融市场行情的影响可能有滞后性和延长性,也就是波及的时间范围较大,因此金融市场行情历史的数据的时间段不一定等同于历史新闻数据的时间段,而是可能延长及后移,在后续实施例中将由体现。(3)将前述时间段划分出N个区间,将每个区间的每个历史新闻数据映射至相同区间的量化指标数值与日期的平均趋势斜率Y;对于不连续的量化指标数值极值和其他不连续性,需要对时间段进行等长或不等长的划分,有利于在数学上获取有意义的趋势斜率,这里是区间的平均斜率趋势对应给每个历史新闻;(4)获取即时新闻的图文包括热点事件,采用即时新闻分词后的语义向量与前述历史新闻的每一个语义向量获得M个相关度靠前历史新闻的相关度数值Xi,i为1至M,M小于等于N;语义的向量过程中,最佳的是删除其中的无意义词汇,增强这种求取相关度的准确性;(5)根据步骤(3)获本文档来自技高网...

【技术保护点】
1.一种基于金融市场行情的自动化新闻情感标定方法,其特征在于,该方法包括以下步骤:(1)采集一定时间段的历史新闻数据,包括主流媒体的政策、财经的图文和图文的发布日期;(2)获取前述一定时间段的对应的时间段金融市场行情历史数据,包括量化指标数值和日期;(3)将前述时间段划分出N个区间,将每个区间的每个历史新闻数据映射至相同区间的量化指标数值与日期的平均趋势斜率Y;(4)获取即时新闻的图文包括热点事件,采用即时新闻分词后的语义向量与前述历史新闻的每一个语义向量获得M个相关度靠前历史新闻的相关度数值Xi,i为1至M,M小于等于N;(5)根据步骤(3)获得上述每个历史新闻数据映射到日期的平均趋势斜率Y的数据库关系,获取步骤(4)中M个相关度在前历史新闻的平均斜率趋势Yi,i为1至M;(6)根据获得的Xi和Yi值,定义该即时新闻的情感S=∑XiYi,i为1至M,若S大于0,则该即时新闻为正面;若S小于0,则该即时新闻为负面。

【技术特征摘要】
1.一种基于金融市场行情的自动化新闻情感标定方法,其特征在于,该方法包括以下步骤:(1)采集一定时间段的历史新闻数据,包括主流媒体的政策、财经的图文和图文的发布日期;(2)获取前述一定时间段的对应的时间段金融市场行情历史数据,包括量化指标数值和日期;(3)将前述时间段划分出N个区间,将每个区间的每个历史新闻数据映射至相同区间的量化指标数值与日期的平均趋势斜率Y;(4)获取即时新闻的图文包括热点事件,采用即时新闻分词后的语义向量与前述历史新闻的每一个语义向量获得M个相关度靠前历史新闻的相关度数值Xi,i为1至M,M小于等于N;(5)根据步骤(3)获得上述每个历史新闻数据映射到日期的平均趋势斜率Y的数据库关系,获取步骤(4)中M个相关度在前历史新闻的平均斜率趋势Yi,i为1至M;(6)根据获得的Xi和Yi值,定义该即时新闻的情感S=∑XiYi,i为1至M,若S大于0,则该即时新闻为正面;若S小于0,则该即时新闻为负面。2.根据权利要求1所述的基于金融市场行情的自动化新闻情感标定方法,其特征在于,步骤(3)中获得映射关系采用长短记忆网络LSTM方式,并对映射关系进行训练。3.根据权利要求2所述的基于金融市场行情的自动化新闻情感标定方法,其特征在于,所述金融市场行情可以是股票、基金、黄金、期货或者债券。4.根据权利要求1所述的基于金融市场行情的自动化新闻情感标定方法,其特征在于:所述步骤(1)中,还包括对历史新闻数据去重的步骤,具体为设置最小日期间隔阈值,对最小日期间隔阈值之内的每个历史新闻求取两两内容文本的相关度,如果该相关度大于相关度预设值则剔除发布时间在后的历史新闻数据。5.根据权利要求4所述的基于金融市场行情的自动化新闻情感标定方法,其特征在于,所述相关度预设值大于70%。6.根据权利要求1所述的基于金融市场行情的自动化新闻标定方法,其特征在于:所述步骤(2))中,所述的金融市场行情历史数据对应的时间段,至少比所述历史新闻数据的时间段大一个金融市场交易日。7.一种计算机储存介质,存储于电子设备中...

【专利技术属性】
技术研发人员:付永晗孔嘉明宫勐
申请(专利权)人:北京捷风数据技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1