The invention discloses a method for predicting the probability of price rise and fall of threaded steel futures. The method is as follows: collecting characteristic data of threaded steel from Internet and third party database; adopting information gain ratio combined with square error minimization criterion, retaining the feature of larger information gain and generating decision tree; and then calculating the empirical entropy of each node through loss function, recursively from the leaves of the tree. The node retracts upward, if all the leaf nodes of a parent node can be merged to reduce its loss function, pruning is carried out to change the parent node into a new leaf node; repeating this step until it can not continue to merge, ultimately reducing the probability of over-fitting; the invention improves the speed of predicting the price of threaded steel futures, saves the cost of manual analysis, and achieves the difficulty of manual analysis. Completed multi-dimensional large data statistical analysis, while the model has the characteristics of continuous learning, the prediction accuracy will be higher and higher.
【技术实现步骤摘要】
一种螺纹钢期货价格涨跌概率预测方法
本专利技术涉及期货价格预测领域,具体涉及一种螺纹钢期货价格涨跌概率预测方法。
技术介绍
术语定义:螺纹钢:螺纹钢是热轧带肋钢筋的俗称。普通热轧钢筋其牌号由HRB和牌号的屈服点最小值构成。H、R、B分别为热轧(Hotrolled)、带肋(Ribbed)、钢筋(Bars)三个词的英文首位字母。期货:期货(Futures)与现货完全不同,现货是实实在在可以交易的货(商品),期货主要不是货,而是以某种大众产品如棉花、大豆、石油等及金融资产如股票、债券等为标的标准化可交易合约。因此,这个标的物可以是某种商品(例如黄金、原油、农产品),也可以是金融工具。决策树:决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法,是直观运用概率分析的一种图解法。由于这种决策分支画成图形很像一棵树的枝干,故称决策树。拟合:形象的说,拟合就是把平面上一系列的点,用一条光滑的曲线连接起来。因为这条曲线有无数种可能,从而有各种拟合方法。拟合的曲线一般可以用函数表示,根据这个函数的不同有不同的拟合名字。机器学习:机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。预测模型:预测模型是在采用定量预测法进行预测时,最重要的工作是建立预测数学模型。预测模型是指用于预测的 ...
【技术保护点】
1.一种螺纹钢期货价格涨跌概率预测方法,其特征在于,包括以下步骤:(1)、学习样本数据收集;包括从互联网上爬取数据和从第三方数据库采购数据;(2)、数据入库:获取数据后,将数据存入数据库,入库时整理并计算好所有特征值,以便后续用作训练与测试数据;(3)、数据特征选取与计算取出数据库中连续一段时间的数据作为训练数据集D;取另一段与数据集D不重复的数据作为测试数据集T;输入训练数据集D和特征A;分别计算数据集D的经验熵H(D)、特征A对数据集D的经验条件熵H(D|A)、信息增益g(D,A)、信息增益比gR(D|A);(4)、决策树模型生成与剪枝采用CART算法与平方误差最小化准则生成决策树,CART假设决策树是一个二叉树,通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布;构建完决策树后,对决策树进行减枝,将噪声节点移除;决策树的剪枝通过极小化决策树整体的损失函数来实现;(5)、模型测试:输入之前准备好的测试数据集T,并比对模型输出与目标值间的误差值,衡量模型训练结果的好坏;当预测准确率超过70%,用于下一步训练;(6)、轮训:将数据仓库中的老数据分为多组 ...
【技术特征摘要】
1.一种螺纹钢期货价格涨跌概率预测方法,其特征在于,包括以下步骤:(1)、学习样本数据收集;包括从互联网上爬取数据和从第三方数据库采购数据;(2)、数据入库:获取数据后,将数据存入数据库,入库时整理并计算好所有特征值,以便后续用作训练与测试数据;(3)、数据特征选取与计算取出数据库中连续一段时间的数据作为训练数据集D;取另一段与数据集D不重复的数据作为测试数据集T;输入训练数据集D和特征A;分别计算数据集D的经验熵H(D)、特征A对数据集D的经验条件熵H(D|A)、信息增益g(D,A)、信息增益比gR(D|A);(4)、决策树模型生成与剪枝采用CART算法与平方误差最小化准则生成决策树,CART假设决策树是一个二叉树,通过递归地二分每个特征,将特征空间划分为有限个单元,并在这些单元上确定预测的概率分布;构建完决策树后,对决策树进行减枝,将噪声节点移除;决策树的剪枝通过极小化决策树整体的损失函数来实现;(5)、模型测试:输入之前准备好的测试数据集T,并比对模型输出与目标值间的误差值,衡量模型训练结果的好坏;当预测准确率超过70%,用于下一步训练;(6)、轮训:将数据仓库中的老数据分为多组训练样本测试数据完成多轮训练,并持续获取未来产生的新数据作为训练样本与测试数据,重复2-5步骤反复迭代模型轮训,提高精度达到指定值,输出模型;(7)、输入最新数据集,输出螺纹钢未来期货价格涨跌预测结果。2.根据权利要求1所述的一种螺纹钢期货价格涨跌概率预测方法,其特征在于,所述从互联网上爬取数据,是使用定时脚本爬取对应页面并解析,将解析后的数据存入数据库;定时爬取与解析数据的脚本,可使用Python的requests,celery,beautifulsoup4实现;所述从第三方数据库采购数据,包括免费和付费使用;所述数据包括港口库存数据、注册仓单数据、现货数据、期货数据和基差数据;将数据清洗整理并按天为单位合并后存入数据库;当某种数据采样时间单位小于一天时,取当天所有数据的平均值;不使用任何采样时间单位大于一天的数据。3.根据权利要求2所述的一种螺纹钢期货价格涨跌概率预测方法,其特征在于,所述特征值计算公式如下:港口库存变化量=港口库存量-港口库存量前值注册仓单变化量=注册仓单量-注册仓单前值基差=现货价格-期货价格基差率=基差/现货价格相对基差=基差-平均基差相对基差率=相对基差/现货价格其他特征直接来源于数据库数据值;所述其他特征包括现货3日均价,现货7日均价,现货15日均价,现货30日均价。4.根据权利要求2所述的一种螺纹钢期货价格涨跌概率预测方法,其特征在于,所述特征选取,其中期货价格数据作为模型输出,其他特征数据作为模型输入;当前数据集D样本容量为|D|,有k个类别Ck,|Ck|为类别Ck的样本个数,某一特征A有n个不同的取值a1,a2,……,an;根据特征A的取值可...
【专利技术属性】
技术研发人员:周振华,
申请(专利权)人:成都知道创宇信息技术有限公司,
类型:发明
国别省市:四川,51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。