当前位置: 首页 > 专利查询>北京大学专利>正文

一种基于新闻特征抽取和循环神经网络的股票涨跌预测方法技术

技术编号:22308946 阅读:358 留言:0更新日期:2019-10-16 09:01
本发明专利技术公开了一种基于新闻特征抽取和循环神经网络的股票涨跌预测方法,其步骤包括:1)准备大量与股票相关的文档集合D,根据D生成一单词表V;2)设置利好种子集和利空种子集,并在D上计算得到最优标准集P

A method of stock up and down prediction based on news feature extraction and recurrent neural network

【技术实现步骤摘要】
一种基于新闻特征抽取和循环神经网络的股票涨跌预测方法
本专利技术涉及一种股票相关数据处理与价格涨跌预测的方法,尤其涉及一种基于新闻特征抽取和循环神经网络的股票涨跌预测方法,属于计算机领域。
技术介绍
股票价格的预测在商业和金融领域具有重要的意义。股票市场的预测在商业界和学术界都受到了广泛的关注。Fama于1965年提出了有效市场假说(EfficientMarketHypothesis),他认为,股票市场是一个“有效信息”市场,股票价格充分反映了已经发生的事件,以及那些尚未发生但市场预期会发生的事件对股票价格的影响。这一假设为之后的股票预测工作提供了依据(FamaEF.Thebehaviorofstock-marketprices[J].ThejournalofBusiness,1965,38(1):34-105)。然而,预测股票价格依然十分困难,因为股票价格受到众多因素的影响。对于单个股票而言,除了国家的货币政策,行业的景气状况等宏观因素,股票上市公司的相关事件等微观因素也会对股票价格产生影响。因此,除了股票自身的价格信息,许多相关工作中都将股票相关的新闻信息作为预测股票价格的重要依据(LiQ,JiangLL,LiP,etal.Tensor-BasedLearningforPredictingStockMovements[C]//AAAI.2015:1784-1790;SchumakerRP,ChenH.Aquantitativestockpredictionsystembasedonfinancialnews[J].InformationProcessing&Management,2009,45(5):571-583;FungGPC,YuJX,LamW.Newssensitivestocktrendprediction[M]//Advancesinknowledgediscoveryanddatamining.SpringerBerlinHeidelberg,2002:481-493)。GPCFung等利用实时的新闻信息对股票价格作出预测(FungGPC,YuJX,LamW.Stockprediction:Integratingtextminingapproachusingreal-timenews[C]//ComputationalIntelligenceforFinancialEngineering,2003.Proceedings.2003IEEEInternationalConferenceon.IEEE,2003:395-402)。他们首先利用线性回归和聚类方法对股票的价格曲线分段,每段时间区间对应价格的上升期和下降期。然后将上升期和下降期内的新闻分别标注为利好消息和利空消息,通过统计方法选择出新闻中的利好和利空特征。最后依据这些新闻中的特征对股票价的涨跌做出预测。该方法忽视了新闻对于股价影响的持续性。THNguyen等利用主题模型来预测股票价格(NguyenTH,ShiraiK.Topicmodelingbasedsentimentanalysisonsocialmediaforstockmarketprediction[C]//Proceedingsofthe53rdAnnuralMeetingoftheAssociationforComputationalLinguistics.2015)。他们提出了一个融合情感和话题的主题模型,并将该模型运用到股票相关新闻的主题分析中。在获得了每个新闻的主题分布向量后,他们将这个主题分布向量加入到股票预测的特征中,最终获得了不错的预测效果。这种主题模型特征是一种通用的文本特征,忽视了金融市场新闻的特殊性。近几年来,深度学习方法在自然语言处理领域取得了许多进展,XiaoDing等将深度学习方法运用到股票预测领域。在2014年(DingX,ZhangY,LiuT,etal.UsingStructuredEventstoPredictStockPriceMovement:AnEmpiricalInvestigation[C]//EMNLP.2014:1415-1425),他们提出了一种新的事件抽取方法,从新闻中抽取出结构化的事件。这些结构化的事件成为神经网络的输入,用于预测股票价格。随后,在事件抽取工作的基础上,他们在2015年进一步学习出结构化事件的eventembedding(对结构化事件的量化表示),使用卷积神经网络模型去预测股票价格(DingX,ZhangY,LiuT,etal.Deeplearningforevent-drivenstockprediction[C]//ProceedingsoftheTwenty-FourthInternationalJointConferenceonArtificialIntelligence(ICJAI).2015:2327-2333)种模型虽然考虑了事件对于股价的持续影响,但是忽略了多个事件对于股价的综合作用。除了与股票相关的新闻信息,大众媒体与社交媒体上的内容也被用于股票预测。JohanBollen等运用Twitter上的内容对股市的涨跌作出预测(BollenJ,MaoH,ZengX.Twittermoodpredictsthestockmarket[J].JournalofComputationalScience,2011,2(1):1-8)。他们使用OpinionFinder(http://mpqa.cs.pitt.edu/opinionfinder/,一个开源情感极性分析工具)等工具分析Twitter上每天的大众情感,然后将这些情感特征加入到预测模型中,对股市的涨跌作出预测。不过这些媒体上的内容一般不适用于单个股票的预测,只能对股市整体的情况(道琼斯工业指数、上证指数等)作出预测。因此,如何充分利用股票相关的新闻信息,提取出与涨跌相关的重要信息进行量化,并与交易数据结合起来对股票价格的涨跌进行预测,目前仍是一个较大的难点。
技术实现思路
股票涨跌预测是指利用股票的历史交易信息以及与股票相关的新闻文本(上市公司公告、收购、内幕丑闻等事件),预测股票在未来一段时间内的涨跌情况。对于每一个交易日,如果当日的收盘价(指股票在交易日里最后一笔买卖的成交价格)高于前一个交易日的收盘价,则当日的股票价格上涨,反之则为下跌。针对股票相关的数据量化处理以及价格涨跌预测,本专利技术提出了一种预测股票涨跌的方法。在特征的量化抽取方面,本专利技术主要提取了与股票相关的新闻特征和股票的历史涨跌信息。其中历史涨跌信息便是历史上每一天的价格涨跌情况。而新闻特征抽取方面,本专利技术使用了一种基于单词点互信息的方法,先依据经验选取了一批能代表新闻利好和利空性质的种子单词,然后基于最优化方法计算出所有单词的利好极性,之后通过单词的利好极性构造出新闻的特征。整体模型方面,考虑到价格的时序性以及新闻影响的持续性,本专利技术提出了一种基于循环神经网络(RecurrentNeuralNetwork,即RNN)的模型,对提取出的量化特征按照历史时间顺序进行逐一处理,最后对最终的处理结果进行上涨与下跌的二分类概率计算,分类结果便是对次日股价涨跌的本文档来自技高网
...

【技术保护点】
1.一种基于新闻特征抽取和循环神经网络的股票涨跌预测方法,其步骤包括:1)准备大量与股票相关的文档集合D,根据文档集合D生成一单词表V;2)设置利好种子集Pseed和利空种子集Nseed,并在文档集合D上进行计算得到最优标准集P

【技术特征摘要】
1.一种基于新闻特征抽取和循环神经网络的股票涨跌预测方法,其步骤包括:1)准备大量与股票相关的文档集合D,根据文档集合D生成一单词表V;2)设置利好种子集Pseed和利空种子集Nseed,并在文档集合D上进行计算得到最优标准集P*和N*;3)对文档集合D进行查询,得到所有包含待预测股票名称的文档集合,其中,该文档集合中第i个交易日的文档doci为一个单词序列为文档doci中第ni个单词;4)利用最优标准集P*和N*计算该单词表V中每一单词w的利好极性polar(w);然后根据各文档中单词的利好极性生成对应文档的新闻特征;其中,文档doci的新闻特征为f(doci);5)根据该待预测股票在过去连续一段交易日内的价格序列生成一差分序列;6)将步骤4)得到的各文档的新闻特征和步骤5)得到的差分序列输入循环神经网络,训练得到一预测模型;7)利用训练好的该预测模型预测该待预测股票的涨跌。2.如权利要求1所述的方法,其特征在于,所述利好极性其中,P*为最优标准利好集,N*为最优标准利空集,pmi(w,v)为单词w和单词v之间的点互信息,最优标准利好集P*和最优标准利空集N*的单词总数分别为K和J。3.如权利要求2所述的方法,其特征在于,获取最优标准利好集P*和最优标准利空集N*的方法为:首先定义标准利好集P和标准利空集N,以及单词w在P和N上的利好极性polar(w);其中,Pstd={wp1,wp2,…,wpK},Nstd={wn1,wn2,…,wnJ},Pstd为一组数量为K的未知的利好标准单词,Nstd为一组数量为J的未知的利空标准单词;然后根据公式s.t.|Pstd|=K,|Nstd|=J,求解得到最优标准集P*和N*。4.如权利要求3所述的方法,其特征在于,求解得到最优标准集P*和N*的方法为:定义单词在种子集合上的极性为通过求解公式s.t.|Pstd|=K,|Nstd|=J得到单词表V中的任意单词w的利好...

【专利技术属性】
技术研发人员:黄丽明闫宏飞
申请(专利权)人:北京大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1