【技术实现步骤摘要】
一种基于投资者情绪和数值数据的股票价格指数预测方法
[0001]本专利技术涉及股票价格预测
,提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。
技术介绍
[0002]近年来,股票价格预测作为金融数据领域的研究热点,大量的研究者采用基于数值数据的方法对股票价格进行预测,忽略了社交媒体上文本数据对股票市场的影响。为了充分利用文本数据的信息,本专利技术提出了一种基于投资者情绪和数值数据的股票价格指数预测方法。利用基于情感词典的方法对股吧评论文本数据进行情感分析获得投资者情绪指标。该指标衡量了投资者对股票市场的看法。由于基础情感词典是针对所有领域通用的,在金融领域词汇的划分上难免有失偏颇,本专利技术根据金融领域词典CFSD中文金融情感词典、百度编制的金融专业词库、爬取的股吧评论文本数据以及股票操作常用词汇人工加入和修改了金融领域的情感词,以提高情感分析的准确度。
[0003]为了更好的利用文本和数值数据信息对股票价格进行预测,本专利技术利用长短期记忆网络(Long short
‑
term m ...
【技术保护点】
【技术特征摘要】
1.一种基于投资者情绪和数值数据的股票价格指数预测方法,其特征在于,包括以下步骤:S1,数据的获取和预处理过程;选用沪深300指数数据作为研究对象,爬取了沪深300指数2020年8月31日至2021年9月1日近一整年的收盘价数值和股吧评论文本数据,并对数据进行去噪声处理和数值归一化处理;S2,构建金融领域特定情感词典;本发明构建的金融领域特定情感词典包括两个步骤,一是融合现有的通用情感词典,二是加入金融领域特有情感词;本发明融合多个通用情感词典,在此基础上进行领域适应,根据金融领域特定词典、爬取的股吧评论文本数据以及股票操作常用词汇,人工构建金融领域特定情感词典;S3,构建投资者情绪指标;利用金融领域特定情感词典计算每条股吧评论文本数据的情感倾向值,在此基础上分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标;步骤S3还包括:S31,对每条股吧评论文本数据进行基于金融领域情感词典的情感分析,将得到的分析结果按照本发明的量化公式进行计算,得到情感倾向值:其中,n表示每条评论文本所包含的情感词汇的个数,c
j
为某股吧评论文本句子s
i
分词后的积极情感词、消极情感词或中性情感词,deny
j
为情感词c
j
前出现否定词的数量,w
j
为情感词前的程度词的权重,w
j
的默认值为1,w
j
是根据知网情感词典中的六种程度词赋予不同的程度等级;如果Sent(s
i
)>0,则表示投资者对股票市场看好,反之如果Sent(s
i
)<0,则表示投资者对股票市场看跌;S32,分别对每个股吧评论文本数据的情感值进行合并计算,最终整合得到每个交易日股票对应的所有股吧评论文本数据的整体情感分值作为其情绪指标,并对其进行归一化处理;S4,构建基于投资者情绪和数值数据的股票价格指数预测模型;使用沪深300指数连续前5天的收盘价和投资者情绪指标作为输入特征,模型共包含三个长短期记忆神经网络层;并对沪深300指数最后20天的收盘价数据进行预测,对预测结果进...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。