一种基于人工智能的股票新闻量化方法及系统技术方案

技术编号:17667672 阅读:85 留言:0更新日期:2018-04-11 06:00
本发明专利技术公开了一种基于人工智能的股票新闻量化方法及系统,用以解决现有的股票预测的新闻参考因素有片面性的问题。该方法包括:获取预设时间内交易日的股票新闻序列;将所述股票新闻序列按照预设长度划分为词序列;判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。本发明专利技术通过三种不同的向量表示学习方法提取新闻特征,使新闻作为参考因素更加地全面,预测准确率越高。

A method and system for quantifying stock news based on Artificial Intelligence

The invention discloses a stock news quantification method and system based on artificial intelligence, so as to solve the one-sided problem of news reference factors existing in stock prediction. The method includes: acquiring preset time sequence news stock trading day; the stock news sequence for the word sequence according to the preset length division; judging whether the stock news is news on the day of the transaction, if, by using the Word2Vec and GloVe to get the news of each lexical entry word vector; if the news is not a stock trading day the news of the day, fastText is used to get the document vector characteristics of the news. This invention extracts news features through three different vectors, making news more comprehensive as a reference factor and higher prediction accuracy.

【技术实现步骤摘要】
一种基于人工智能的股票新闻量化方法及系统
本专利技术涉及人工智能
,尤其涉及一种基于人工智能的股票新闻量化方法及系统。
技术介绍
股票价格预测是指利用价格的历史信息以及股票相关的市场信息,预测股票在未来一段时间的涨跌情况或者价格情况。近几年来,深度学习方法在自然语言处理领域取得了许多进展。深度学习方法也逐渐运用到股票预测领域。THNguyen等利用主体模型来预测股票价格。在文献[Topicmodelingbasedsentimentanalysisonsocialmediaforstockmarketprediction]中,他们提出一个融合情感和话题的主题模型,并将该模型运用到股票相关新闻的主体分析中。在获得了每个新闻的主题分布向量后,他们将这个主题向量加入到股票预测的特征中,最终获得了不错的预测效果。但是却忽略了金融领域本身独有的特征。除了与股票相关的新闻信息,大众媒体与社交媒体上的内容也被用于股票预测。JohanBollen等在文献[Twittermoodpredictsthestockmarket]中运用Twitter上的内容对股市的涨跌作出预测。他们使用OpinionFinde等工具分析Twitter上每天的大众情感,然后将这些情感特征加入到预测模型中,对股市的涨跌作出预测。但是只能对股市整体的情况作出预测,不适用于单个股票的预测。股票相关的新闻信息通常与股票本身的发展形势较为相关,也容易包含一些利好极性的术语等,因此ZeyaZhang等人在相关工作[Stockprediction:amethodbasedonextractionofnewsfeaturesandrecurrentneuralnetworks]中使用了新闻的利好极性区间分布作为其特征,并与历史价格信息一并放入循环神经网络中进行计算。但是新闻文本中含着丰富的信息,仅从利好极性去考虑并不充分。
技术实现思路
本专利技术要解决的技术问题目的在于提供一种基于人工智能的股票新闻量化方法及系统,用以解决现有的股票预测的新闻参考因素具有片面性的问题。为了实现上述目的,本专利技术采用的技术方案为:一种基于人工智能的股票新闻量化方法,包括步骤:获取预设时间内交易日的股票新闻序列;将所述股票新闻序列按照预设长度划分为词序列;判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。进一步地,所述利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征的步骤具体包括:利用Word2Vec得到预测上下文的词项并通过最大化条件概率学习得到第一词向量特征;利用GloVe得到基于全局信息的第二词向量特征;将所述第一词向量特征及所述第二词向量特征拼接得到每个词项的词向量特征。进一步地,所述利用Word2Vec得到各词项间的线性关系的步骤具体包括:设定词项wi的上下文为在当前句子中与所述词项的距离小于k的词项的集合Context(wi):Context(wi)={wi-k,wi-k+1,...,wi-1,Wi+1,...,wi+k};其中,i表示所述词项在句子中的位置;得到目标预测词o出现在所述词项wi的条件概率为:其中,u0为目标预测词o的外矢量,为目标预测词o的内矢量;构建Skip-Gram模型;根据所述条件概率得到Skip-Gram模型的损失函数:其中,T为当前句子词项的总数,j为与所述词项的距离,m为与所述词项的最大距离。进一步地,所述利用GloVe得到基于全局信息的第二词向量特征的步骤具体包括:在共现矩阵构造与所述Skip-Gram模型条件匹配的模型;所述模型的损失函数为:进一步地,所述利用fastText得到所述新闻的文档向量特征的步骤具体包括:以次日股票价格的涨跌为标签对每篇股票新闻进行标注;利用fastText进行有监督的分类训练;利用训练后的模型计算每篇股票新闻的文档向量特征。一种基于人工智能的股票新闻量化系统,包括:获取模块,用于获取预设时间内交易日的股票新闻序列;划分模块,用于将所述股票新闻序列按照预设长度划分为词序列;词向量模块,用于判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;文档向量模块,用于若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。进一步地,所述词向量模块具体包括:第一模型单元,用于利用Word2Vec得到预测上下文的词项并通过最大化条件概率学习得到第一词向量特征;第二模型单元,用于利用GloVe得到基于全局信息的第二词向量特征;拼接单元,用于将所述第一词向量特征及所述第二词向量特征拼接得到每个词项的词向量特征。进一步地,所述第一模型单元具体包括:设定词项wi的上下文为在当前句子中与所述词项的距离小于k的词项的集合Context(wi):Context(wi)={wi-k,wi-k+1,...,wi-1,wi+1,...,wi+k};其中,i表示所述词项在句子中的位置;得到目标预测词o出现在所述词项wi的条件概率为:其中,u0为目标预测词o的外矢量,为目标预测词o的内矢量;构建Skip-Gram模型;根据所述条件概率得到Skip-Gram模型的损失函数:其中,T为当前句子词项的总数,j为与所述词项的距离,m为与所述词项的最大距离。进一步地,所述第二模型单元具体包括:在共现矩阵构造与所述Skip-Gram模型条件匹配的模型;所述模型的损失函数为:进一步地,所述文档向量模块具体包括:标注模块,用于以次日股票价格的涨跌为标签对每篇股票新闻进行标注;分类模块,用于利用fastText进行有监督的分类训练;计算模块,用于利用训练后的模型计算每篇股票新闻的文档向量特征。本专利技术与传统的技术相比,有如下优点:本专利技术通过三种不同的向量表示学习方法提取新闻特征,使新闻作为参考因素更加地全面,预测的准确率越高。附图说明图1是实施例一提供的一种基于人工智能的股票新闻量化方法流程图;图2是实施例二提供的一种基于人工智能的股票新闻量化系统结构图。具体实施方式以下是本专利技术的具体实施例并结合附图,对本专利技术的技术方案作进一步的描述,但本专利技术并不限于这些实施例。实施例一本实施例提供了一种基于人工智能的股票新闻量化方法,如图1所示,包括步骤:S11:获取预设时间内交易日的股票新闻序列;S12:将股票新闻序列按照预设长度划分为词序列;S13:判断股票新闻是否为当天的新闻,若是,则利用Word2Vec与GloVe得到新闻的每个词项的词向量特征;S14:若股票新闻不是交易日当天的新闻,则利用fastText得到新闻的文档向量特征。近年来基于文本的词向量标识方法与文档标识方法十分流行,通过对大量预料进行训练,最终为每个词或文章学习一个特征矩阵,使相似的词在向量空间中更为接近。可以有效将文本进行量化处理。在进行股票行情、价格涨跌预测等应用时,文本作为十分重要的参考因素之一,经常需要有一些较好的量化特征以供参考。本实施例使用大量的股票新闻进行文本向量训练,并用循环神经网络对量化标识的历史新闻做进一步处理,从而提本文档来自技高网
...
一种基于人工智能的股票新闻量化方法及系统

【技术保护点】
一种基于人工智能的股票新闻量化方法,其特征在于,包括步骤:获取预设时间内交易日的股票新闻序列;将所述股票新闻序列按照预设长度划分为词序列;判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。

【技术特征摘要】
1.一种基于人工智能的股票新闻量化方法,其特征在于,包括步骤:获取预设时间内交易日的股票新闻序列;将所述股票新闻序列按照预设长度划分为词序列;判断所述股票新闻是否为交易日当天的新闻,若是,则利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征;若所述股票新闻不是交易日当天的新闻,则利用fastText得到所述新闻的文档向量特征。2.根据权利要求1所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用Word2Vec与GloVe得到所述新闻的每个词项的词向量特征的步骤具体包括:利用Word2Vec得到预测上下文的词项并通过最大化条件概率学习得到第一词向量特征;利用GloVe得到基于全局信息的第二词向量特征;将所述第一词向量特征及所述第二词向量特征拼接得到每个词项的词向量特征。3.根据权利要求2所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用Word2Vec得到各词项间的线性关系的步骤具体包括:设定词项wi的上下文为在当前句子中与所述词项的距离小于k的词项的集合Context(wi):Context(wi)={wi-k,wi-k+1,...,wi-1,wi+1,...,wi+k};其中,i表示所述词项在句子中的位置;得到目标预测词o出现在所述词项wi的条件概率为:其中,u0为目标预测词o的外矢量,为目标预测词o的内矢量;构建Skip-Gram模型;根据所述条件概率得到Skip-Gram模型的损失函数:其中,T为当前句子词项的总数,j为与所述词项的距离,m为与所述词项的最大距离。4.根据权利要求3所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用GloVe得到基于全局信息的第二词向量特征的步骤具体包括:在共现矩阵构造与所述Skip-Gram模型条件匹配的模型;所述模型的损失函数为:5.根据权利要求1所述的一种基于人工智能的股票新闻量化方法,其特征在于,所述利用fastText得到所述新闻的文档向量特征的步骤具体包括:以次日股票价格的涨跌为标签对每篇股票新闻进行标注;利用fastText进行有监督的分类训练;利用训练后的模型计算每篇股票新闻的...

【专利技术属性】
技术研发人员:张潇
申请(专利权)人:宏谷信息科技珠海有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1