数据分析预测方法及装置制造方法及图纸

技术编号:31492414 阅读:28 留言:0更新日期:2021-12-18 12:29
本发明专利技术公开了一种数据分析预测方法及装置,涉及大数据技术领域,该方法为:建立金融新闻数据集;采用BERT模型对所述金融新闻数据集进行无监督语料预训练,得到预训练模型;用已根据各条金融新闻数据对应股票的收益率建立数据标签的金融新闻数据对预训练模型进行有监督训练的二分类训练,得到新闻情感分类模型;将目标金融新闻数据输入新闻情感分类模型,得到情绪指标;建立与所述金融新闻数据集对应的股票样本数据集,构建用于预测股票趋势的LSTM模型;将目标金融新闻数据对应的目标股票数据输入LSTM模型,得到趋势预测值;根据趋势预测值与情绪指标对目标股票进行分析预测,可以提高股票数据分析预测的效率和准确性,改善用户体验。善用户体验。善用户体验。

【技术实现步骤摘要】
数据分析预测方法及装置


[0001]本专利技术涉及大数据
,尤其涉及一种数据分析预测方法及装置。

技术介绍

[0002]本部分旨在为权利要求书中陈述的本专利技术实施例提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
[0003]由于股价市场易受到多种因素影响,对股票进行预测十分困难,现有的股票预测方法包括基本面分析、技术分析和时间序列分析等,都无法及时掌握金融投资信息,对股票数据的分析预测效率和准确性都有待提高,用户体验不佳。
[0004]因此,如何提供一种新的方案,能够解决上述技术问题是本领域亟待解决的技术难题。

技术实现思路

[0005]本专利技术实施例提供一种数据分析预测方法,用以提高股票数据分析预测的效率和准确性,改善用户体验,该方法包括:
[0006]建立金融新闻数据集,所述金融新闻数据集包括多条金融新闻数据;
[0007]采用BERT模型对所述金融新闻数据集进行无监督语料预训练,得到预训练模型;
[0008]根据各条金融新闻数据对应股票的收益率为各条金融本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种数据分析预测方法,其特征在于,包括:建立金融新闻数据集,所述金融新闻数据集包括多条金融新闻数据;采用BERT模型对所述金融新闻数据集进行无监督语料预训练,得到预训练模型;根据各条金融新闻数据对应股票的收益率为各条金融新闻数据建立数据标签;用已建立数据标签的金融新闻数据对预训练模型进行有监督训练的二分类训练,得到新闻情感分类模型;将目标金融新闻数据输入新闻情感分类模型,得到情绪指标,所述情绪指标表明目标金融新闻数据被判定为正向情绪或负面情绪;建立股票样本数据集,所述股票样本数据集包括多个分别与所述金融新闻数据集中多条金融新闻数据对应的股票样本数据;利用所述股票样本数据集构建用于预测股票趋势的LSTM模型;将目标金融新闻数据对应的目标股票数据输入LSTM模型,得到趋势预测值,所述趋势预测值表明目标股票被预测为上涨或下跌;在趋势预测值表明目标股票被预测为上涨,并且情绪指标表明目标金融新闻数据被判定为正向情绪时,发出建议买入或继续持有目标股票的提示信息。2.如权利要求1所述的方法,其特征在于,金融新闻数据包括:新闻发布时间、新闻标题、新闻内容、新闻来源、新闻对应公司的股票代码其中之一或任意组合。3.如权利要求1所述的方法,其特征在于,采用BERT模型对所述金融新闻数据集进行无监督语料预训练,得到预训练模型,包括:采用BERT模型对所述金融新闻数据集进行无监督语料预训练,学习金融新闻数据中字符级、词语级、语句级和句间关系的特征;根据学习到的金融新闻数据中字符级、词语级、语句级和句间关系的特征,得到预训练模型。4.如权利要求1所述的方法,其特征在于,根据各条金融新闻数据对应股票的收益率为各条金融新闻数据建立数据标签,包括:在金融新闻数据对应股票的收益率超过第一阈值时,为金融新闻数据建立正样本的数据标签;其中,第一阈值为正值;在金融新闻数据对应股票的收益率低于第二阈值时,为金融新闻数据建立负样本的数据标签;其中,第二阈值为负值。5.如权利要求1所述的方法,其特征在于,用已建立数据标签的金融新闻数据对预训练模型进行有监督训练的二分类训练,得到新闻情感分类模型,包括:用已建立数据标签的金融新闻数据对预训练模型进行有监督训练的二分类训练,为预训练模型添加输出层,得到新闻情感分类模型。6.如权利要求1所述的方法,其特征在于,将目标金融新闻数据输入新闻情感分类模型,得到情绪指标,包括:将目标金融新闻数据输入新闻情感分类模型,得到情绪得分,所述情绪得分根据新闻情感分类模型输出值为正样本的概率确定;根据情绪得分判定目标金融新闻数据为正向情绪或负面情绪,得到情绪指标。7.如权利要求1所述的方法,其特征在于,利用所述股票样本数据集构建用于预测股票
趋势的LSTM模型之前,还包括:对所述股票样本数据集进行数据预处理,所述数据预处理包括缺失值填充和/或数据标准化。8.如权利要求1所述的方法,其特征在于,利用所述股票样本数据集构建用于预测股票趋势的LSTM模型,包括:预设置如下LSTM模型参数中的至少一种:输入维度、输出维度、输入序列数目、隐藏层数、隐藏层神经元数、随机断开输入神经元比率、初始化权值方法、神经元激活函数、单个训练批次样本数、学习速率、损失函数;根据预设置的LSTM模型参数,利用所述股票样本数据集构建用于预测股票趋势的LSTM模型。9.如权利要求8所述的方法,其特征在于,预设置LSTM模型参数,包括将LSTM模型参数预设置为:输入维度:6,分别为开盘价、收盘价、最高价、最低价、成交金额、成交量;输出维度:2,对应二分类;输入序列数目:30;隐藏层数:2层;隐藏层神经元数:每层100个;随机断开输入神经元比率:0.2;初始化权值方法:使用正态分布初始化权值;神经元激活函数:Tanh;单个训练批次样本数:1000;学习速率:0.001;损失函数:categorical_crossentropy。10.如权利要求1所述的方法,其特征在于,还包括:在趋势预测值表明目标股票被预测为下跌,或情绪指标表明目标金融新闻数据被判定为负面情绪时,发出建议卖出或继续空仓的提示信息。11.一种数据分析预测装置,其特征在于,包括:金融新闻数据集建立模块,用于建立金融新闻数据集,所述金融新闻数据集包括多条金融新闻数据;预训练模块,用于采用BERT模型对所述...

【专利技术属性】
技术研发人员:朴雪威王丽静杨春明赵卉
申请(专利权)人:中国银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1