一种螺纹钢期货价格涨跌概率预测方法技术

技术编号:20920002 阅读:41 留言:0更新日期:2019-04-20 10:25
本发明专利技术公开了一种螺纹钢期货价格涨跌概率预测方法,其具体方法是:从互联网与第三方数据库中收集螺纹钢特征数据;采用信息增益比结合平方误差最小化准则,保留信息增益较大的特征,生成决策树;然后通过损失函数计算每个节点的经验熵,递归地从树的叶节点向上回缩,如果将某一个父节点的所有叶节点合并,能够使得其损失函数减小,则进行剪枝,将父节点变成新的叶节点;重复此步骤,直到不能继续合并,最终降低过拟合概率;本发明专利技术提高了螺纹钢期货价格预测的速度,节省了人工分析成本,实现了人工难以完成的多维度大数据统计分析,同时模型有持续学习特点,预测精度会越来越高。

A Prediction Method of Rise and Drop Probability of Thread Steel Futures Price

The invention discloses a method for predicting the probability of price rise and fall of threaded steel futures. The method is as follows: collecting characteristic data of threaded steel from Internet and third party database; adopting information gain ratio combined with square error minimization criterion, retaining the feature of larger information gain and generating decision tree; and then calculating the empirical entropy of each node through loss function, recursively from the leaves of the tree. The node retracts upward, if all the leaf nodes of a parent node can be merged to reduce its loss function, pruning is carried out to change the parent node into a new leaf node; repeating this step until it can not continue to merge, ultimately reducing the probability of over-fitting; the invention improves the speed of predicting the price of threaded steel futures, saves the cost of manual analysis, and achieves the difficulty of manual analysis. Completed multi-dimensional large data statistical analysis, while the model has the characteristics of continuous learning, the prediction accuracy will be higher and higher.

【技术实现步骤摘要】
一种螺纹钢期货价格涨跌概率预测方法
本专利技术涉及期货价格预测领域,具体涉及一种螺纹钢期货价格涨跌概率预测方法。
技术介绍
术语定义:螺纹钢:螺纹钢是热轧带肋钢筋的俗称。普通热轧钢筋其牌号由HRB和牌号的屈服点最小值构成。H、R、B分别为热轧(Hotrolled)、带肋(Ribbed)、钢筋(Bars)三个词的英文首位字母。期货:期货(Futures)与现货完全不同,现货是实实在在可以交易的货(商品),期货主要不是货,而是以某种大众产品如棉花、大豆、石油等及金融资产如股票、债券等为标的标准化可交易合约。因此,这个标的物可以是某种商品(例如黄金、原油、农产品),也可以是金融工具。决策树:决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。拟合:形象的说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。拟合的曲线一般可以用函数表示,根据这个函数的不同有不同的拟合名字。机器学习:机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。预测模型:预测模型是在采用定量预测法进行预测时,最重要的工作是建立预测数学模型。预测模型是指用于预测的,用数学语言或公式所描述的事物间的数量关系。它在一定程度上揭示了事物间的内在规律性,预测时把它作为计算预测值的直接依据。因此,它对预测准确度有极大的影响。任何一种具体的预测方法都是以其特定的数学模型为特征。预测方法的种类很多,各有相应的预测模型。基差:基差是某一特定商品于某一特定的时间和地点的现货价格与期货价格之差。它的计算方法是现货价格减去期货价格。若现货价格低于期货价格,基差为负值;现货价格高于期货价格,基差为正值。过拟合:过拟合是指为了得到一致假设而使假设变得过度严格。避免过拟合是分类器设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。现有技术方案《一种塑料原料成交价格趋势预测方法及装置》通过获取预设历史时间段内塑料原料的订单数据、塑料期货价格数据、原油期货价格数据、银行利率数据和汇率数据;按照预设条件对订单数据进行筛选;根据筛选后的订单数据、塑料期货价格数据、原油期货价格数据、银行利率数据和汇率数据,计算预设未来时间段内塑料原料的预估成交价格。现有技术方案的缺点:1.未针对螺纹钢品种特征分析,不可用于螺纹钢期货涨跌预测。2.未使用机器学习技术,不具备自学特性,且需要人工手动反复调整参数,费时费力。3.分析速度慢,大数据场景不适用,增加特征工作量大。
技术实现思路
为解决上述问题,本专利技术提供一种螺纹钢期货价格涨跌概率预测方法。本方案的具体步骤为:1、学习样本数据收集;包括从互联网上爬取数据和从第三方数据库采购数据;2、数据入库:获取数据后,将数据存入数据库,入库时整理并计算好所有特征值,以便后续用作训练与测试数据;3、数据特征选取与计算取出数据库中连续一段时间的数据作为训练数据集D;取另一段与数据集D不重复的数据作为测试数据集T;输入训练数据集D和特征A;分别计算数据集D的经验熵H(D)、特征A对数据集D的经验条件熵H(D|A)、信息增益g(D,A)、信息增益比gR(D|A);4、决策树模型生成与剪枝采用CART算法与平方误差最小化准则生成决策树,CART假设决策树是一个二叉树,通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布;构建完决策树后,对决策树进行减枝,将噪声节点移除;决策树的剪枝通过极小化决策树整体的损失函数来实现;5、模型测试:输入之前准备好的测试数据集T,并比对模型输出与目标值间的误差值,衡量模型训练结果的好坏;当预测准确率超过70%,用于下一步训练;6、轮训:将数据仓库中的老数据分为多组训练样本测试数据完成多轮训练,并持续获取未来产生的新数据作为训练样本与测试数据,重复2-5步骤反复迭代模型轮训,提高精度达到指定值,输出模型;7、输入最新数据集,输出螺纹钢未来期货价格涨跌预测结果。该方案中,从互联网上爬取数据,是使用定时脚本爬取对应页面并解析,将解析后的数据存入数据库;定时爬取与解析数据的脚本,可使用Python的requests,celery,beautifulsoup4实现;从第三方数据库采购数据,包括免费和付费使用;以上数据包括港口库存数据、注册仓单数据、现货数据、期货数据和基差数据;将数据清洗整理并按天为单位合并后存入数据库;当某种数据采样时间单位小于一天时,取当天所有数据的平均值;不使用任何采样时间单位大于一天的数据。该方案中,特征值计算公式如下:港口库存变化量=港口库存量-港口库存量前值注册仓单变化量=注册仓单量-注册仓单前值基差=现货价格-期货价格基差率=基差/现货价格相对基差=基差-平均基差相对基差率=相对基差/现货价格其他特征直接来源于数据库数据值;所述其他特征包括现货3日均价,现货7日均价,现货15日均价,现货30日均价。针对步骤3中特征选取,其中期货价格数据作为模型输出,其他特征数据作为模型输入;当前数据集D样本容量为|D|,有k个类别Ck,|Ck|为类别Ck的样本个数,某一特征A有n个不同的取值a1,a2,……,an;根据特征A的取值可将数据集D划分为n个子集D1,D2,……,Dn,|Di|为Di的样本个数,并记子集Di中属于类Ck的样本的集合为Dik,|Dik|为Dik的样本个数。计算数据集D的经验熵H(D)公式为熵值表达了该数据样本的随机性,即混乱程度。特征A对数据集D的经验条件熵H(D|A)计算式为条件熵表达了A特征值固定的情况下,数据集D的熵值。信息增益g(D,A)计算式为g(D,A)=H(D)-H(D|A)信息增益表达了得知特征A时,使得类数据集D的熵值减少程度。信息增益gR(D|A)计算式为上式中HA(D)表示训练集D关于特征A的值的经验熵,既A值给定时,数据集D的经验熵,其计算式为特征A对训练数据集D的信息增益比定义为其信息增益与训练集D关于特征A的值的熵之比;信息增益比越大,越是有效的特增值,在构建树时,会在每个节点上计算信息增益比,并最终确定每个节点选取的特征值。进一步的,在步骤4中,决策树生成办法如下:(1)、从根节点开始,对结点计算所有可能特征的信息增益,选择信息增益最大的特征作为结点的特征,并由该特征的不同取值构建子节点;(2)、对子节点递归地调用以上方法,构建决策树;(3)、直到所有特征的信息增益均没有特征可选时为止;所述平方误差最小化准则如下:假设已将输入空间划分为M个单元R1,R2,...,RM,并且在每个单元Rm上有一个固定的输出值cm,于是回归树可以表示为当输入空间的划分确定时,可以用平方误差来表示回归树对于训练数据的预测误差,式中yi表示数据集中给的输出特征。同时,在步骤4中,决策树的剪枝在提高信息本文档来自技高网
...

【技术保护点】
1.一种螺纹钢期货价格涨跌概率预测方法,其特征在于,包括以下步骤:(1)、学习样本数据收集;包括从互联网上爬取数据和从第三方数据库采购数据;(2)、数据入库:获取数据后,将数据存入数据库,入库时整理并计算好所有特征值,以便后续用作训练与测试数据;(3)、数据特征选取与计算取出数据库中连续一段时间的数据作为训练数据集D;取另一段与数据集D不重复的数据作为测试数据集T;输入训练数据集D和特征A;分别计算数据集D的经验熵H(D)、特征A对数据集D的经验条件熵H(D|A)、信息增益g(D,A)、信息增益比gR(D|A);(4)、决策树模型生成与剪枝采用CART算法与平方误差最小化准则生成决策树,CART假设决策树是一个二叉树,通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布;构建完决策树后,对决策树进行减枝,将噪声节点移除;决策树的剪枝通过极小化决策树整体的损失函数来实现;(5)、模型测试:输入之前准备好的测试数据集T,并比对模型输出与目标值间的误差值,衡量模型训练结果的好坏;当预测准确率超过70%,用于下一步训练;(6)、轮训:将数据仓库中的老数据分为多组训练样本测试数据完成多轮训练,并持续获取未来产生的新数据作为训练样本与测试数据,重复2‑5步骤反复迭代模型轮训,提高精度达到指定值,输出模型;(7)、输入最新数据集,输出螺纹钢未来期货价格涨跌预测结果。...

【技术特征摘要】
1.一种螺纹钢期货价格涨跌概率预测方法,其特征在于,包括以下步骤:(1)、学习样本数据收集;包括从互联网上爬取数据和从第三方数据库采购数据;(2)、数据入库:获取数据后,将数据存入数据库,入库时整理并计算好所有特征值,以便后续用作训练与测试数据;(3)、数据特征选取与计算取出数据库中连续一段时间的数据作为训练数据集D;取另一段与数据集D不重复的数据作为测试数据集T;输入训练数据集D和特征A;分别计算数据集D的经验熵H(D)、特征A对数据集D的经验条件熵H(D|A)、信息增益g(D,A)、信息增益比gR(D|A);(4)、决策树模型生成与剪枝采用CART算法与平方误差最小化准则生成决策树,CART假设决策树是一个二叉树,通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布;构建完决策树后,对决策树进行减枝,将噪声节点移除;决策树的剪枝通过极小化决策树整体的损失函数来实现;(5)、模型测试:输入之前准备好的测试数据集T,并比对模型输出与目标值间的误差值,衡量模型训练结果的好坏;当预测准确率超过70%,用于下一步训练;(6)、轮训:将数据仓库中的老数据分为多组训练样本测试数据完成多轮训练,并持续获取未来产生的新数据作为训练样本与测试数据,重复2-5步骤反复迭代模型轮训,提高精度达到指定值,输出模型;(7)、输入最新数据集,输出螺纹钢未来期货价格涨跌预测结果。2.根据权利要求1所述的一种螺纹钢期货价格涨跌概率预测方法,其特征在于,所述从互联网上爬取数据,是使用定时脚本爬取对应页面并解析,将解析后的数据存入数据库;定时爬取与解析数据的脚本,可使用Python的requests,celery,beautifulsoup4实现;所述从第三方数据库采购数据,包括免费和付费使用;所述数据包括港口库存数据、注册仓单数据、现货数据、期货数据和基差数据;将数据清洗整理并按天为单位合并后存入数据库;当某种数据采样时间单位小于一天时,取当天所有数据的平均值;不使用任何采样时间单位大于一天的数据。3.根据权利要求2所述的一种螺纹钢期货价格涨跌概率预测方法,其特征在于,所述特征值计算公式如下:港口库存变化量=港口库存量-港口库存量前值注册仓单变化量=注册仓单量-注册仓单前值基差=现货价格-期货价格基差率=基差/现货价格相对基差=基差-平均基差相对基差率=相对基差/现货价格其他特征直接来源于数据库数据值;所述其他特征包括现货3日均价,现货7日均价,现货15日均价,现货30日均价。4.根据权利要求2所述的一种螺纹钢期货价格涨跌概率预测方法,其特征在于,所述特征选取,其中期货价格数据作为模型输出,其他特征数据作为模型输入;当前数据集D样本容量为|D|,有k个类别Ck,|Ck|为类别Ck的样本个数,某一特征A有n个不同的取值a1,a2,……,an;根据特征A的取值可...

【专利技术属性】
技术研发人员:周振华
申请(专利权)人:成都知道创宇信息技术有限公司
类型:发明
国别省市:四川,51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1