一种基于文字识别和决策树算法的煤价趋势判断方法技术

技术编号:37607111 阅读:14 留言:0更新日期:2023-05-18 11:59
本发明专利技术的一种基于文字识别和决策树算法的煤价趋势判断方法,属于机器学习技术领域。包括S101,预先获取原始报价单数据;S102,转为数值型数据;S103,将数值型数据转为模型可用的特征;S104,确定样本的类别属性;S105,划分训练数据和测试数据;S106,针对训练数据,计算基尼指数;S107,选择根节点;S108,生成决策树模型;S109,将测试集数据传入上述决策树模型,评估模型拟合较好;S110,将此模型布到移动端展示结果。通过历史数据及专业判断训练出煤价趋势判断模型,可以更快、更精准的判断当日煤价的涨跌情况,提高了下游客户判断煤价趋势的效率和准确率,进而做出更精准的采购决策来降低成本。低成本。低成本。

【技术实现步骤摘要】
一种基于文字识别和决策树算法的煤价趋势判断方法


[0001]本专利技术属于机器学习
,具体来说是一种基于文字识别和决策树算法的煤价趋势判断方法。

技术介绍

[0002]煤炭被誉为“工业的粮食”,是众多下游行业的重要原材料,对整个工业系统有举足轻重的作用。而煤炭采购成本又是很多下游客户生产经营中最大的成本,所以煤炭价格趋势判断对于下游客户采购决策与成本控制有很大意义。
[0003]目前下游客户对于当日煤价涨跌趋势多为经验判断和业务感知,如果可以通过历史数据及专业判断训练出煤价趋势判断模型,就可以帮助下游客户更精准的判断当日煤价趋势,从而做出更准确的采购决策。

技术实现思路

[0004]1.专利技术要解决的技术问题
[0005]本专利技术的目的在于解决现有的当日煤价趋势判断不准确的问题。
[0006]2.技术方案
[0007]为达到上述目的,本专利技术提供的技术方案为:
[0008]一种基于文字识别和决策树算法的煤价趋势判断方法,
[0009]包括如下步骤:
[0010]S101,预先获取原始报价单数据;
[0011]S102,对原始图数据通过OCR文字识别技术进行解析,转为数值型数据;
[0012]S103,基于算法和业务经验,将数值型数据转为模型可用的特征;
[0013]S104,利用多名业务人员的丰富经验来确定样本的类别属性;
[0014]S105,划分训练数据和测试数据;
[0015]S106,针对训练数据,计算每个特征的每个切分点对应的基尼指数;
[0016]S107,选择基尼指数最小的特征及其对应的切分点作为根节点;
[0017]S108,根据根节点将数据集划分为两部分,分别对应两个子节点,重复S106和S107两个步骤,生成决策树模型;
[0018]S109,将测试集数据传入上述决策树模型,评估模型拟合较好;
[0019]S110,将此模型布到移动端展示结果。
[0020]优选的,所述步骤S101中获取的数据主要为图片数据,其中包括供应商名称、块形、煤价数据。
[0021]优选的,所述步骤S103中基于算法和业务经验将数值型数据转为特征,具体为将价格上涨供应商占比、价格下跌供应商占比、价格上涨块形占比、价格下跌块形占比转换为价格变动的供应商占比差和价格变动的块形占比。
[0022]优选的,所述步骤S105基于当前数据量,按照80%和20%的比例划分训练数据和
测试数据,测试数据用来校验模型准确率。
[0023]优选的,所述步骤S106中,计算每个特征的每个切分点对应的基尼指数,公式如(1)所示:
[0024][0025]上式中,Gini(X)为划分节点的纯度指标,p
i
为每个类别的概率,k为训练集中样本的类别个数。
[0026]优选的,所述步骤S107中基尼指数度量的是训练数据的不确定性,即基尼指数越小表明特征所对应的类型越确定,选择基尼指数小的作为根结点可以更好的构建决策树。
[0027]优选的,所述步骤S108中按照S107的结果,选择最小基尼指数对应的根结点供应商占比差≤10%来划分训练数据。
[0028]优选的,所述步骤S109中利用准确率指标来评估模型拟合程度,具体公式如下:其中Accuiacy代表准确率,n
correct
代表预测准确的样本数,n
total
代表测试集样本数,模型准确率计算高达93%,拟合效果较好,如果拟合效果不好,可以通过网格搜索调整参数提高模型准确率。
[0029]3.有益效果
[0030]采用本专利技术提供的技术方案,与现有技术相比,具有如下有益效果:
[0031]本专利技术的一种基于文字识别和决策树算法的煤价趋势判断方法,包括如下步骤:S101,预先获取原始报价单数据;S102,对原始图数据通过OCR文字识别技术进行解析,转为数值型数据;S103,基于算法和业务经验,将数值型数据转为模型可用的特征;S104,利用多名业务人员的丰富经验来确定样本的类别属性;S105,划分训练数据和测试数据;S106,针对训练数据,计算每个特征的每个切分点对应的基尼指数;S107,选择基尼指数最小的特征及其对应的切分点作为根节点;S108,根据根节点将数据集划分为两部分,分别对应两个子节点,重复S106和S107两个步骤,生成决策树模型;S109,将测试集数据传入上述决策树模型,评估模型拟合较好;S110,将此模型布到移动端展示结果。相较于现有技术的煤价趋势判断方法,本专利技术的煤价趋势判断方法通过历史数据及专业判断训练出煤价趋势判断模型,利用此决策树模型可以更快、更精准的判断当日煤价的涨跌情况,提高了下游客户判断煤价趋势的效率和准确率,进而做出更精准的采购决策来降低成本。
附图说明
[0032]图1为本专利技术的一种基于文字识别和决策树算法的煤价趋势判断方法的整体结构示意图。
[0033]示意图中的标号说明:
[0034]S101,预先获取原始报价单数据;
[0035]S102,对原始图数据通过OCR文字识别技术进行解析,转为数值型数据;
[0036]S103,基于业务经验,将数值型数据转为特征;
[0037]S104,利用多名业务人员的丰富经验来确定样本的类别属性;
[0038]S105,划分训练数据和测试数据;
[0039]S106,针对训练数据,计算每个特征的每个切分点对应的基尼指数;
[0040]S107,选择基尼指数最小的特征及其对应的切分点作为根节点;
[0041]S108,根据根节点将数据集划分为两部分,分别对应两个子节点,重复S106和S107两个步骤,生成决策树;
[0042]S109,将测试集数据传入上述决策树模型,评估模型拟合较好;
[0043]S110,将此模型布到移动端展示结果。
具体实施方式
[0044]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0045]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0046]在本申请中,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于文字识别和决策树算法的煤价趋势判断方法,其特征在于,包括如下步骤:S101,预先获取原始报价单数据;S102,对原始图数据通过OCR文字识别技术进行解析,转为数值型数据;S103,基于算法和业务经验,将数值型数据转为模型可用的特征;S104,利用多名业务人员的丰富经验来确定样本的类别属性;S105,划分训练数据和测试数据;S106,针对训练数据,计算每个特征的每个切分点对应的基尼指数;S107,选择基尼指数最小的特征及其对应的切分点作为根节点;S108,根据根节点将数据集划分为两部分,分别对应两个子节点,重复S106和S107两个步骤,生成决策树模型;S109,将测试集数据传入上述决策树模型,评估模型拟合较好;S110,将此模型布到移动端展示结果。2.根据权利要求1所述的一种基于文字识别和决策树算法的煤价趋势判断方法,其特征在于:所述步骤S101中获取的数据主要为图片数据,其中包括供应商名称、块形、煤价数据。3.根据权利要求1所述的一种基于文字识别和决策树算法的煤价趋势判断方法,其特征在于:所述步骤S103中基于算法和业务经验将数值型数据转为特征,具体为将价格上涨供应商占比、价格下跌供应商占比、价格上涨块形占比、价格下跌块形占比转换为价格变动的供应商占比差和价格变动的块形占比。4.根据权利要求1所述的一种基于文字识别和决策树算法的煤价趋势判断方法,其特征在于:所述步骤S105基于当前...

【专利技术属性】
技术研发人员:张欢周敏杨震威张龙宇潘浩
申请(专利权)人:内蒙古荣通数链煤炭科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1