当前位置: 首页 > 专利查询>洪志令专利>正文

一种基于类似n元语法统计的股票预测方法技术

技术编号:14881127 阅读:139 留言:0更新日期:2017-03-24 03:45
本发明专利技术公开了一种基于类似n元语法统计的股票预测方法。方法分为两个阶段:规则学习阶段和规则应用阶段。在规则学习阶段,对于每只股票,首先对股票每日的涨跌幅进行量化,量化后分别对相邻的多个交易日的量化值进行多元语法统计,获得量化值可能组合出现的频率,以及组合最后一个元素在其他元素出现的前提下其出现的条件概率。在规则应用阶段,每只股票获取其近期几天的量化涨跌幅,并将这些组合量化值应用于学习阶段所获得的规则,从而预测股票下一交易日的各种可能涨跌幅及其相应的涨跌概率。方法可用于下一交易日的预测,可为股票短线操作提供决策支持。

【技术实现步骤摘要】

本专利技术涉及股票数据挖掘
,尤其是涉及一种基于类似n元语法统计的股票预测方法
技术介绍
股票市场上,对于决策者来说,预测越准确,对未来利润的获取及风险的规避就越有利。由于股票价格变化往往受政治、社会、经济因素的影响,具有变换幅度大,变化因素多,不稳定性的特点,因此,如何正确对股票价格进行预测就成为股票买卖者最关心的问题。股票数据一种时间序列数据,具有显著的非线性、时变性特征,人们对于股市的预测研究已经进行若干年,并提出许多的预测算法。主要分为两类:一类是传统统计方法,另一类为人工智能方法。传统的各种股票预测方法,都是基于线性模型,不能充分考虑各因素对股票价格的影响,不能很好地分析和拟合高度非线性多因素的股票市场,预测精度不理想。为弥补这一缺陷,近年来国内外众多学者利用各种神经网络的人工智能方法,对股票价格进行了大量的预测研究,但是神经网络存在训练速度慢,易陷入局部极小值,以及隐含层节点数人为指定等问题,这些问题直接影响了股票价格的预测精度。因此本专利技术提出基于类似n元语法统计的股票预测方法对股票第二日的涨跌幅进行预测,从而为股民决策提供较大的指导价值。
技术实现思路
本专利技术公开了一种基于类似n元语法统计的股票预测方法。方法分为两个阶段:规则学习阶段和规则应用阶段。在规则学习阶段,对于每只股票,首先对股票每日的涨跌幅进行量化,量化后分别对相邻的多个交易日的量化值进行多元语法统计,获得量化值可能组合出现的频率,以及组合最后一个元素在其他元素出现的前提下其出现的条件概率。在规则应用阶段,每只股票获取其近期几天的量化涨跌幅,并将这些组合量化值应用于学习阶段所获得的规则,从而预测股票下一交易日的各种可能涨跌幅及其相应的涨跌概率。方法可用于下一交易日涨跌幅的预测,可为股票短线操作提供决策支持。本专利技术方法的步骤如下:一、规则学习阶段(1)对于每只股票,对其某个时间点以来的涨跌幅值进行量化;(2)对于每只股票,遍历每个交易日的量化涨跌幅,统计各量化值出现的次数,即一元语法统计;(3)对于每只股票,对相邻两个交易日的量化值组合进行次数统计,同时计算组合最后一个元素在其他元素出现的前提下其出现的条件概率,即二元语法统计;(4)类似步骤3进行三元语法、四元语法、五元语法的统计;每只股票得到自己的n元语法统计规则;二、规则应用阶段(5)获取待预测股票的近期4个交易日的涨跌幅数据,并进行量化;(6)以近四个交易日的量化涨跌幅,匹配搜索该股票本身的五元语法统计规则中的前四元,获取最后一个元素的值及条件概率,该值和条件概率即为下一交易日的可能近似涨跌幅和出现概率;(7)类似步骤6以近三个交易日的量化涨跌幅匹配搜索四元语法统计规则;以近两个交易日的量化涨跌幅匹配搜索三元语法统计规则;以近一个交易日的量化涨跌幅匹配搜索二元语法统计规则;从而获取在每种语法规则下对下一交易日的预测情况。其中,步骤(1)的对涨跌幅值进行量化,是对涨跌幅值进行四舍五入操作,形成整数值。其中,步骤(2)的量化涨跌幅取值只有21种情况,即[-10,10]区间的整数,对每只股票进行单独的遍历,统计每个整数值出现的次数。其中,步骤(3)的相邻两个交易日的量化值组合共有21X21种情况,统计每种情况出现的次数。结合一元统计的情况,计算组合的最后一个元素出现的条件概率。假设共同出现的两个整数值为AB,则后件B出现的条件概率P(B)=P(AB)/P(A),即AB共同出现的次数占A单独出现次数的比例。其中,步骤(4)的三元语法、四元语法、五元语法的统计即对应相邻三个交易日、四个交易日和五个交易日的统计。可能组合的情况数分别21X21X21、21X21X21X21、21X21X21X21X21;最后一个元素出现的条件概率的计算公式分别为:P(C)=P(ABC)/P(AB)、P(D)=P(ABCD)/P(ABC)和P(E)=P(ABCDE)/P(ABCD);分子的数值可以从本元次的语法统计中获得,而分母的数值可以从低一元的语法统计中获得。其中,步骤(5)的仅获取近期4个交易日的涨跌幅数据的原因是在规则学习阶段仅进行到五元语法统计。其量化过程与步骤1类似。其中,步骤(6)以近四个交易日的量化涨跌幅,匹配搜索该股票本身的五元语法统计规则中的前四元,即在五元语法学习中得到的是五维数组,当四个交易日的量化涨跌幅与前四维匹配时,该行元组的第五维数值即为下一交易日可能的近似涨跌幅,相应的条件概率则为出现该数值的概率。其中,步骤(7)的以类似步骤6进行四元、三元、二元语法规则的应用,是为了获得在不同的统计元次下,对下一交易日的预测情况,从而为投资决策提供更多的参考。附图说明图1是本专利技术基于类似n元语法统计的股票预测方法的流程图。上半部分为规则的学习过程,下半部分为规则的应用过程。图2是基于本专利技术方法输出的某一股票在下一交易日的预测结果。图中包括了在不同模型元次下的近似涨跌幅预测,及其出现的概率。每个元次的语法规则的应用仅取条件概率最高的3种结果进行展示。这里,D4,D3,D2,D1分别代表该股票近四个交易日的近似涨跌幅,D0代表下一交易日可能的近似涨跌幅。次数占比则为D0出现的条件概率。另外,在1元模型中,D0代表股票近似涨跌幅的振幅,其相应条件下的次数占比值可以体现股票的活跃度。具体实施方式下面结合附图和实例,对本专利技术进行详细的描述。n元语法((n-gramgrammar)是建立在马尔可夫模型上的一种概率语法。它通过对自然语言的符号串中n个符号同时出现概率的统计数据来推断句子的结构关系。当n=2时,称为二元语法,二元文法(n=2时)被称作一阶马尔科夫链;当n=3时,称为三元语法,三元文法模型称作二阶马尔科夫链。以此类推多元语法。把股票小段时间序列的涨跌幅数值量化后看作是自然语言中的符号串,则对股票下一交易日涨跌幅度的预测类似于对符号串中的下一符号的预测。本专利技术方法分为两个阶段,规则学习阶段和规则应用阶段。假设股票列表为S,S=[S1,S2,…,Si,…,Sm],m为股票池中股票的数量,如中国上市股票的数量或美国上市股票的数量。方法针对每只股票独立学习规则。一、规则学习阶段。该阶段主要是对每只股票单独统计日涨跌幅及其相邻交易日涨跌幅组合出现的次数,作为一种类似语法规则的学习过程。对于每只股票,假设当前股票为Si,i=1,…,m,则该股票语法规则的统计过程如下。1.1对股票的涨跌幅值进行量化。首先获取某个时间点以来(如2005年1月1日)的数据,然后对股票的涨跌幅数据进行量化,即对涨跌幅值进行四舍五入操作,形成整数值;这样最后形成了一个股票涨跌幅整数值的数组。1.2进行一元语法统计。一元语法统计实际上是对每个交易日的涨跌幅值出现次数的统计。由于股票有涨跌幅限制,上一步骤量化后的整数值有21种情况,即[-10,10]区间的整数,因此设置一个有21槽的数组,遍历股票涨跌幅整数值数组,根据涨跌幅整数值的出现次数进行累加统计,并放入对应的槽中。1.3进行二元语法统计。二元语法的统计是对股票相邻两个交易日涨跌幅出现次数的统计。具体统计过程如下:首先设置一个21X21的二维数组,遍历股票涨跌幅整数值数组,每次取相邻的两个值,对这两个值的共同出现的次数进行累加统计,并放入二维数组对应本文档来自技高网...
一种基于类似n元语法统计的股票预测方法

【技术保护点】
一种基于类似n元语法统计的股票预测方法,其特征在于所述方法包括如下步骤:规则学习阶段:(1) 对于每只股票,对其某个时间点以来的涨跌幅值进行量化;(2) 对于每只股票,遍历每个交易日的量化涨跌幅,统计各量化值出现的次数,即一元语法统计;(3) 对于每只股票,对相邻两个交易日的量化值组合进行次数统计,同时计算组合最后一个元素在其他元素出现的前提下其出现的条件概率,即二元语法统计;(4) 类似步骤3进行三元语法、四元语法、五元语法的统计;每只股票得到自己的n元语法统计规则;规则应用阶段:(5) 获取待预测股票的近期4个交易日的涨跌幅数据,并进行量化;(6) 以近四个交易日的量化涨跌幅,匹配搜索该股票本身的五元语法统计规则中的前四元,获取最后一个元素的值及条件概率,该值和条件概率即为下一交易日的可能近似涨跌幅和出现概率;(7) 类似步骤6以近三个交易日的量化涨跌幅匹配搜索四元语法统计规则;以近两个交易日的量化涨跌幅匹配搜索三元语法统计规则;以近一个交易日的量化涨跌幅匹配搜索二元语法统计规则;从而获取在每种语法规则下对下一交易日的预测情况。

【技术特征摘要】
1.一种基于类似n元语法统计的股票预测方法,其特征在于所述方法包括如下步骤:规则学习阶段:(1)对于每只股票,对其某个时间点以来的涨跌幅值进行量化;(2)对于每只股票,遍历每个交易日的量化涨跌幅,统计各量化值出现的次数,即一元语法统计;(3)对于每只股票,对相邻两个交易日的量化值组合进行次数统计,同时计算组合最后一个元素在其他元素出现的前提下其出现的条件概率,即二元语法统计;(4)类似步骤3进行三元语法、四元语法、五元语法的统计;每只股票得到自己的n元语法统计规则;规则应用阶段:(5)获取待预测股票的近期4个交易日的涨跌幅数据,并进行量化;(6)以近四个交易日的量化涨跌幅,匹配搜索该股票本身的五元语法统计规则中的前四元,获取最后一个元素的值及条件概率,该值和条件概率即为下一交易日的可能近似涨跌幅和出现概率;(7)类似步骤6以近三个交易日的量化涨跌幅匹配搜索四元语法统计规则;以近两个交易日的量化涨...

【专利技术属性】
技术研发人员:洪志令
申请(专利权)人:洪志令
类型:发明
国别省市:福建;35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1