当前位置: 首页 > 专利查询>洪志令专利>正文

一种基于历史重现的股票数据挖掘模型和系统技术方案

技术编号:15504056 阅读:47 留言:0更新日期:2017-06-04 00:13
本发明专利技术公开了一种基于历史重现的股票数据挖掘模型和系统。模型基于“历史会重演”的思想从海量的股票历史趋势线中寻求发现有价值的信息,构建的股票数据挖掘模型包括6个核心模块,分别为:数据存储中心、数据准备、数据模型与数据挖掘、数据挖掘结果、结果跟踪、性能评估。基于此模型,可构建功能丰富且扩展性强的股票大数据挖掘系统,系统一方面有利用股票挖掘方法的快速测试与实践,另一方可为用户进行股票投资提供辅助决策支持。

Stock data mining model and system based on historical repetition

The invention discloses a stock data mining model and a system based on historical reproduction. Based on the model of \history will repeat\ thought from the massive historical stock trend line seeks to discover valuable information, stock data mining model construction consists of 6 core modules, respectively: data storage center, data preparation, data model and data mining, data mining results, results tracking, performance evaluation. Based on this model, can build rich and strong expansion of stock data mining system, fast test and practice using the method system of mining stocks, stock investment to provide decision support for the user to the other party.

【技术实现步骤摘要】
一种基于历史重现的股票数据挖掘模型和系统
本专利技术涉及股票数据挖掘
,尤其是涉及一种基于历史重现的股票数据挖掘模型和系统。
技术介绍
随着我国证券行业的飞速发展,股票投资已成为许多家庭和个人理财的一种重要方式,是很多家庭财产收入的重要组成部分。股票市场具有高风险与高收益并存的特性,股票价格的涨跌及变化趋势也一直受到政府和投资大众的密切关注,证券市场的波动也逐渐成为衡量我国经济发展水平的一个重要指标。因此,股票价格的预测已成为经济学中一个重要的研究课题。然而股票价格受各种经济的、政治的、社会的因素相互作用、相互影响,其变化有着很强的无序性,其数学模型往往复杂难以准确确定或者包含混沌性,从而增加了预测的难度。数据挖掘的作用是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。股票数据挖掘的研究主要集中在4个方面:相似序列匹配、股票价格预测、交易规则抽取以及时间模式发现。
技术实现思路
本专利技术公开了一种基于历史重现的股票数据挖掘模型和系统。模型基于“历史会重演”的思想从海量的股票历史趋势线中寻求发现有价值的信息,构建的股票数据挖掘模型包括6个核心模块,分别为:数据存储中心、数据准备、数据模型与数据挖掘、数据挖掘结果、结果跟踪、性能评估。基于此模型,可构建功能丰富且扩展性强的股票大数据挖掘系统,系统一方面有利用股票挖掘方法的快速测试与实践,另一方可为用户进行股票投资提供辅助决策支持。本专利技术方法的模型模块组成或步骤如下:(1)构建数据存储中心;(2)进行数据抽取及预处理;(3)构建数据模型,并进行股票数据挖掘;(4)根据数据模型、不同的挖掘目的获取不同的股票挖掘结果;(5)对股票数据挖掘结果进行记录跟踪;(6)对模型中各个环节进行性能评估和优化。其中,步骤(1)构建数据存储中心主要用于负责数据的存储,具体包括股票数据库和股票数据挖掘库。股票数据库用于存储股票相关的数据,存储内容包括:每个交易日的股票交易数据、股票列表、股票的行业分类、地域分类、概念分类、终止或暂停上市的股票列表等。股票数据挖掘库用于存储对股票进行数据挖掘的过程和结果的数据。如规范化后的股票数据、股票匹配的中间数据、每日的推荐数据、统计数据、跟踪数据等。其中,步骤(2)的进行数据抽取及预处理,具体为:数据抽取分为2种,入库的抽取和出库的抽取;预处理分为股票收盘价基准变换、数据量化、相对值计算和递增量计算等方面。其中,步骤(3)的构建数据模型,并进行股票数据挖掘,具体为:根据不同的目的,如股票预测、股票推荐等,定义不同的数据模型、学习规则等对股票数据进行挖掘。包括但不限于如下几个方面。(A)趋势匹配。以股票近期一段时间的走势去匹配股票历史数据,从而获得相似走势。(B)数据统计。对股票近几个交易日的涨跌幅量化值进行共现的统计,从而获取下一交易日的可能涨跌幅及出现的概率。(C)数据分类。基于股票之间相似度计算的基础上,利用分层聚类树、k-均值、kNN等方法对股票进行聚类或者分类。(D)模式匹配。通过预先定义的走势模式,匹配股票历史数据,获取相似的走势模式。其中,步骤(4)的根据数据模型、不同的挖掘目的获取不同的股票挖掘结果,结果具体的划分包括但不限于如下几个方面。(A)股票预测。对股票未来不同时间长度,不同的内容进行预测。基于趋势匹配的数据模型方法既可预测未来一段时间的走势,也可预测近一两天的行情;基于数据统计的数据模型方法主要用于预测下一交易日的可能涨跌幅及涨跌概率。(B)股票推荐。通过对股票预测的结果进行排序后择优推荐。区分对于未来一段时间走势的预测结果、对于近期几天行情的预测结果和对于下一交易日的预测结果三种不同时间点预测结果的择优推荐步骤。(C)股票选择。对股票的选择分为两种类型:粗选和精选。基于数据分类的数据模型在基于股票的相似性计算后,对股票形成了分类。这些分类构成了股票的粗选;或者基于模式匹配的数据模型通过对股票进行预定义的模式匹配,匹配结果也构成了股票的粗选。在粗选的基础上,精选过程可结合一些参量进行,如换手率、成交量等。(D)统计排序。对股票的历史数据进行统计排序,目的在于对股票现状有更好的整体理解。一些统计结果如:强相关排序、强匹配排序、N元语法排序、关联规则排序、涨跌幅排序等。(E)规则学习。对模型学习过程中生成的规则进行学习,从而更好理解股市运行逻辑。如对关联规则数据模型中生成的各种规则,提取满足支持度并且置信度高的规则,即强关联规则。其中,步骤(5)的对股票数据挖掘结果进行记录跟踪,具体为记录每天的数据挖掘结果,构成新的时间序列数据,并对这些数据进行跟踪,包括结果的递增更新和结果的优化。其中,步骤(6)的对模型中各个环节进行性能评估和优化,具体为对整个股票数据挖掘模型中的各个环节进行性能评估,包括准确性评估、效率评估、数据评估。准确性评估分为两种:定性评估和定量评估。对于股票的推荐结果,以定性评估为主。对于股票的预测结果,以定量评估为主,定性评估为辅。效率评估主要是测算每个环节、每个数据模型的计算时间,而后通过改进算法、并行计算等方式对计算效率进行提升。数据评估主要是根据数据挖掘结果的可视化展示发现异常,回溯到原始数据后进行数据的质量跟踪与修正。附图说明图1是基于历史重现的股票数据挖掘模型的流程图。具体实施方式下面结合附图和实例,对本专利技术进行详细的描述。将股票价格用曲线连接起来就成为一条趋势线,股票数据挖掘的目的就是基于“历史会重演”的思想从海量的历史趋势线中寻求发现有价值的信息。数据挖掘的作用是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。本专利技术方法基于“历史会重演”的思想,提出了一种用于股票数据挖掘的模型。如图1所示,本专利技术的股票数据挖掘模型主要包括6个核心模块:数据存储中心、数据准备、数据模型与数据挖掘、数据挖掘结果、结果跟踪、性能评估。一、数据存储中心。本模块主要负责数据的存储。1.1股票数据库。用于存储股票相关的数据,存储内容包括:每个交易日的股票交易数据、股票列表、股票的行业分类、地域分类、概念分类、终止或暂停上市的股票列表等。1.2股票数据挖掘库。用于存储对股票进行数据挖掘的过程和结果的数据。如规范化后的股票数据、股票匹配的中间数据、每日的推荐数据、统计数据、跟踪数据等。二、数据准备。本模块主要为下一步的数据挖掘处理提供需要的输入数据。2.1数据抽取。数据抽取分为2种:入库的抽取和出库的抽取。a.从网络或其他数据来源抓取股票数据并入库。通过网络爬虫技术直接从新浪财经频道或网易财经频道抓取实时的股票数据,或者通过新浪、Yahoo、腾讯提供的api接口获取收盘后的股票数据。b.从数据存储中心抽取数据供下一步数据的预处理。抽取某个时间点以来(如2005年1月1日)的股票数据;或者抽取近期一段时间(如近30天)的股票数据。2.2数据预处理。对于每只股票,有这样几种类型的数据预处理。a.基准变换。以某个起始时间点的收盘价定义为1并设为基准,其后续时间点的收盘价根据涨跌幅进行变换得到,如第二天的涨跌幅为Change2,则第二天的基准收盘价为:1*(1+Change2/10本文档来自技高网...
一种基于历史重现的股票数据挖掘模型和系统

【技术保护点】
一种基于历史重现的股票数据挖掘模型和系统,其特征在于所述方法包括如下步骤:(1)构建数据存储中心;(2)进行数据抽取及预处理;(3)构建数据模型,并进行股票数据挖掘;(4)根据数据模型、不同的挖掘目的获取不同的股票挖掘结果;(5)对股票数据挖掘结果进行记录跟踪;(6)对模型中各个环节进行性能评估和优化。

【技术特征摘要】
1.一种基于历史重现的股票数据挖掘模型和系统,其特征在于所述方法包括如下步骤:(1)构建数据存储中心;(2)进行数据抽取及预处理;(3)构建数据模型,并进行股票数据挖掘;(4)根据数据模型、不同的挖掘目的获取不同的股票挖掘结果;(5)对股票数据挖掘结果进行记录跟踪;(6)对模型中各个环节进行性能评估和优化。2.根据权利要求1所述的一种基于历史重现的股票数据挖掘模型和系统,其特征在于,在构建数据模型对股票进行数据挖掘时,为寻找历史上曾经出现的各种模式,应用了历史相似走势的匹配模型、相邻量化值的统计模型、基于...

【专利技术属性】
技术研发人员:洪志令吴梅红
申请(专利权)人:洪志令
类型:发明
国别省市:福建,35

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1