一种基于投资者情绪和数值数据的股票价格指数预测方法技术

技术编号:37508058 阅读:17 留言:0更新日期:2023-05-07 09:46
本发明专利技术公开了一种基于投资者情绪和数值数据的股票价格指数预测方法。首先,爬取沪深300指数相关数据,获得收盘价数值和股吧评论文本数据,对数据进行预处理。并构建金融领域特定情感词典,进而对预处理后的文本数据进行情感分析并做量化处理后获得投资者情绪指标。其次,构建基于投资者情绪和数值数据的股票价格指数预测模型,利用模型对沪深300指数最后20天的收盘价数据进行预测,对预测结果反归一化后进行比较和可视化。最后,设计实现了股票价格指数预测系统。实验验证了本发明专利技术提出的股票价格指数预测模型的准确度相对较高,加入基于股吧评论的投资者情绪指标提高了股票价格预测的准确度。预测的准确度。预测的准确度。

【技术实现步骤摘要】
一种基于投资者情绪和数值数据的股票价格指数预测方法


[0001]本专利技术涉及股票价格预测
,提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。

技术介绍

[0002]近年来,股票价格预测作为金融数据领域的研究热点,大量的研究者采用基于数值数据的方法对股票价格进行预测,忽略了社交媒体上文本数据对股票市场的影响。为了充分利用文本数据的信息,本专利技术提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。利用基于情感词典的方法对股吧评论文本数据进行情感分析获得投资者情绪指标。该指标衡量了投资者对股票市场的看法。由于基础情感词典是针对所有领域通用的,在金融领域词汇的划分上难免有失偏颇,本专利技术根据金融领域词典CFSD中文金融情感词典、百度编制的金融专业词库、爬取的股吧评论文本数据以及股票操作常用词汇人工加入和修改了金融领域的情感词,以提高情感分析的准确度。
[0003]为了更好的利用文本和数值数据信息对股票价格进行预测,本专利技术利用长短期记忆网络(Long short

term memory,LSTM)构建了基于投资者情绪和数值数据的股票价格指数预测模型,该模型在输入特征上是多维度的,不仅仅包括沪深300指数收盘价,还融合了基于股吧评论的投资者情绪指标,且该模型是以沪深300指数的收盘价数据为预测输出对象。该模型采用三个LSTM网络层,分别为LSTM输入层、LSTM隐藏层以及LSTM输出层。其中输入层有5个神经元,分别用来处理连续5天的收盘价以及投资者情绪指标数据,只有LSTM输出层的最后一个神经元进行预测结果的输出。具体来说,就是用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征维度,对第6天的收盘价进行预测。
[0004]本专利技术技术解决了现有的股票价格预测模型往往只利用数值数据,鲜有研究融合文本情感数据构建股票价格预测模型的问题。虽然数值数据可以在很大程度上反映股票市场的走势,但是随着行为金融学理论的提出,由社交媒体文本数据所折射出的投资者情绪在一定程度上影响着股票市场的波动。结合文本情绪指标和数值数据作为输入特征可以进一步提高股票价格预测模型的准确度。

技术实现思路

[0005]本专利技术旨在通过利用沪深300指数股吧评论文本数据和历史收盘价数据对股票价格指数进行预测,设计系统并实现。
[0006]为达到上述目的,针对文本数据对股票市场的影响,本专利技术提出了一种基于投资者情绪和数值数据的股票价格指数预测方法,包括以下步骤:
[0007]S1,数据的获取和预处理过程;选用沪深300指数(000300)数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;
[0008]S2,构建金融领域特定情感词典;本专利技术构建的金融领域特定情感词典包括两个
步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词;本专利技术融合多个通用情感词典,在此基础上进行领域适应,根据金融领域特定词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;
[0009]S3,构建投资者情绪指标;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;
[0010]S4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络(Long short

term memory,LSTM)层。并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进行反归一化,最后对结果进行比较和可视化;
[0011]S5,构建基于投资者情绪和数值数据的股票价格指数预测系统;包括预测系统设计和预测系统实现。
[0012]根据本专利技术实施例提出的基于投资者情绪和数值数据的股票价格指数预测方法,首先爬取沪深300指数相关数据,获得收盘价数值和股吧评论文本数据,对数据进行预处理。并构建金融领域特定情感词典,进而对预处理后的文本数据进行情感分析并做量化处理后获得投资者情绪指标。其次,构建基于投资者情绪和数值数据的股票价格指数预测模型,利用模型对沪深300指数最后20天的收盘价数据进行预测,对预测结果反归一化后进行比较和可视化。最后,设计实现了股票价格指数预测系统。
[0013]根据本专利技术的一个实施例,所述步骤S1包括:
[0014]S11,使用Excel软件中的“排序和筛选”以及“查找和选择”等功能对股吧评论根据文本的特征形式进行去除噪声处理;
[0015]S12,使用归一化函数MinMaxScaler对收盘价数据进行了离差标准化,将结果值归一化到[0,1]区间:
[0016][0017]其中,x
normaliation
为标准化后的数据,x为样本数据,x
max
和x
min
为样本数据中的最大值和最小值。
[0018]根据本专利技术的一个实施例,步骤S2还包括:
[0019]S21,融合了现有的通用情感词典,包括Hownet情感词典、清华大学中文褒贬义词典、大连理工大学中文情感词汇本体库、波森情感词典、褒贬词及其近义词、汉语情感词极值表、情感词汇本体、情感词典及其分类;对多个词典文档进行融合,并进行去重处理,同时将词典归结为积极词汇和消极词汇两大类,并对情感词典的权重进行统一调整;
[0020]S22,本专利技术根据金融领域特定词典(CFSD中文金融情感词典、百度编制的金融专业词库)、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典。
[0021]根据本专利技术的一个实施例,步骤S3还包括:
[0022]S31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本专利技术的量化公式进行计算,得到情感倾向值:
[0023][0024]其中,n表示每条评论文本所包含的情感词汇的个数,c
j
为某股吧评论文本句子s
i
分词后的积极情感词、消极情感词或中性情感词,deny
j
为情感词c
j
前出现否定词的数量,w
j
为情感词前的程度词的权重,w
j
的默认值为1,w
j
是根据知网情感词典中的六种程度词赋予不同的程度等级;如果sent(s
i
)>0,则表示投资者对股票市场看好,反之如果Sent(s
i
)<0,则表示投资者对股票市场看跌;
[0025]S32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于投资者情绪和数值数据的股票价格指数预测方法,其特征在于,包括以下步骤:S1,数据的获取和预处理过程;选用沪深300指数数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;S2,构建金融领域特定情感词典;本发明构建的金融领域特定情感词典包括两个步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词;本发明融合多个通用情感词典,在此基础上进行领域适应,根据金融领域特定词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;S3,构建投资者情绪指标;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;步骤S3还包括:S31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本发明的量化公式进行计算,得到情感倾向值:其中,n表示每条评论文本所包含的情感词汇的个数,c
j
为某股吧评论文本句子s
i
分词后的积极情感词、消极情感词或中性情感词,deny
j
为情感词c
j
前出现否定词的数量,w
j
为情感词前的程度词的权重,w
j
的默认值为1,w
j
是根据知网情感词典中的六种程度词赋予不同的程度等级;如果Sent(s
i
)>0,则表示投资者对股票市场看好,反之如果Sent(s
i
)<0,则表示投资者对股票市场看跌;S32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标,并对其进行归一化处理;S4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络层;并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进...

【专利技术属性】
技术研发人员:赵传君刘金峰武美龄
申请(专利权)人:山西财经大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1