The invention discloses a stock news quantification method and system based on artificial intelligence, so as to solve the one-sided problem of news reference factors existing in stock prediction. The method includes: acquiring preset time sequence news stock trading day; the stock news sequence for the word sequence according to the preset length division; judging whether the stock news is news on the day of the transaction, if, by using the Word2Vec and GloVe to get the news of each lexical entry word vector; if the news is not a stock trading day the news of the day, fastText is used to get the document vector characteristics of the news. This invention extracts news features through three different vectors, making news more comprehensive as a reference factor and higher prediction accuracy.
【技术实现步骤摘要】
一种基于人工智能的股票新闻量化方法及系统
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的股票新闻量化方法及系统。
技术介绍
股票价格预测是指利用价格的历史信息以及股票相关的市场信息,预测股票在未来一段时间的涨跌情况或者价格情况。近几年来,深度学习方法在自然语言处理领域取得了许多进展。深度学习方法也逐渐运用到股票预测领域。THNguyen等利用主体模型来预测股票价格。在文献[Topicmodelingbasedsentimentanalysisonsocialmediaforstockmarketprediction]中,他们提出一个融合情感和话题的主题模型,并将该模型运用到股票相关新闻的主体分析中。在获得了每个新闻的主题分布向量后,他们将这个主题向量加入到股票预测的特征中,最终获得了不错的预测效果。但是却忽略了金融领域本身独有的特征。除了与股票相关的新闻信息,大众媒体与社交媒体上的内容也被用于股票预测。JohanBollen等在文献[Twittermoodpredictsthestockmarket]中运用Twitter上的内容对股市的涨跌作出预测。他们使用OpinionFinde等工具分析Twitter上每天的大众情感,然后将这些情感特征加入到预测模型中,对股市的涨跌作出预测。但是只能对股市整体的情况作出预测,不适用于单个股票的预测。股票相关的新闻信息通常与股票本身的发展形势较为相关,也容易包含一些利好极性的术语等,因此ZeyaZhang等人在相关工作[Stockprediction:amethodbasedonextractionofnew ...
【技术保护点】
一种基于人工智能的股票新闻量化方法,其特征在于,包括步骤:获取预设时间内交易日的股票新闻序列;将所述股票新闻序列按照预设长度划分为词序列;判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。
【技术特征摘要】
1.一种基于人工智能的股票新闻量化方法,其特征在于,包括步骤:获取预设时间内交易日的股票新闻序列;将所述股票新闻序列按照预设长度划分为词序列;判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。2.根据权利要求1所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征的步骤具体包括:利用Word2Vec得到预测上下文的词项并通过最大化条件概率学习得到第一词向量特征;利用GloVe得到基于全局信息的第二词向量特征;将所述第一词向量特征及所述第二词向量特征拼接得到每个词项的词向量特征。3.根据权利要求2所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用Word2Vec得到各词项间的线性关系的步骤具体包括:设定词项wi的上下文为在当前句子中与所述词项的距离小于k的词项的集合Context(wi):Context(wi)={wi-k,wi-k+1,...,wi-1,wi+1,...,wi+k};其中,i表示所述词项在句子中的位置;得到目标预测词o出现在所述词项wi的条件概率为:其中,u0为目标预测词o的外矢量,为目标预测词o的内矢量;构建Skip-Gram模型;根据所述条件概率得到Skip-Gram模型的损失函数:其中,T为当前句子词项的总数,j为与所述词项的距离,m为与所述词项的最大距离。4.根据权利要求3所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用GloVe得到基于全局信息的第二词向量特征的步骤具体包括:在共现矩阵构造与所述Skip-Gram模型条件匹配的模型;所述模型的损失函数为:5.根据权利要求1所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用fastText得到所述新闻的文档向量特征的步骤具体包括:以次日股票价格的涨跌为标签对每篇股票新闻进行标注;利用fastText进行有监督的分类训练;利用训练后的模型计算每篇股票新闻的...
【专利技术属性】
技术研发人员:张潇,
申请(专利权)人:宏谷信息科技珠海有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。