物料数据长描述对应小类名称分类方法技术

技术编号:22944827 阅读:21 留言:0更新日期:2019-12-27 17:13
本发明专利技术公开了一种物料数据长描述对应小类名称分类方法。本发明专利技术物料数据的小类类别的分类,首先能准确分析数据中存在的问题,如大小写/全半角、连接符、单位不统一,读音相似问题,进行合理的数据预处理过程,将数据规范化、标准化,然后转化成特征向量的形式,采用logistic回归+L2正则化+L‑BFGS优化的方法对其进行分类,本发明专利技术可以实现对物料快速、准确的分类,提高了企业在物料存取的工作效率。

【技术实现步骤摘要】
物料数据长描述对应小类名称分类方法
本专利技术涉及物料数据分类
,尤其涉及物料数据长描述对应小类名称分类方法。
技术介绍
物料主数据包含了对所有企业所采购、生产和存储在库存中物料的描述。它是企业中有关物料信息(例如,库存水平)的物料数据代码库。将所有的物料数据集成在单一的物料数据库中,消除了数据冗余的问题,而且不仅允许采购部门使用这些数据,而且其它应用部门(例如,库存管理、物料计划及控制、发票校验等)也可以使用这些数据。物料分类是指按照一定的排列次序和组合方式,对具有相同自然属性的物料进行分类。物料分类过程中应尽量遵循以自然属性分类的基本准则,现有的物料分类效率低下,而且容易出现分类错误的现象。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出物料数据长描述对应小类名称分类方法,本专利技术可以实现对物料快速、准确的分类,提高了企业在物料存取的工作效率。根据本专利技术实施例的一种物料数据长描述对应小类名称分类方法,方法步骤如下:S1:原始物料数据:对原始物料的数据进行读入;S2:数据预处理:对读入的原始物料数据进行预处理,将数据规范化、标准化;S3:类别转数字:将原始物料数据类别列编码成数字;S4:样本集划分:将样本集划分为训练集和测试集;S5:特征向量化:将物料长描述转换为特征向量形式;S6:分类:通过学习得到一个目标函数,把每个特征集映射到一个预先定义的类标号;S7:分类结果评估:通过准确率、召回率和F1值来评估分类结果。所述S2包括如下步骤:S21:对原始物料数据单位和连接符统一;S22:去掉括号和斜杠;S23:中文分词后进行文字转拼音;S24:大写转小写和全角转半角。S3中所述原始物料数据包含物料数据长描述、小类名称。S4中样本集的划分比例为训练集样本量与测试集样本量比例为7:3。S5中所述特征向量化方法为tf-idf算法。S5中所述物料长描述为物料文本数据。S6中所述分类方法有logistic回归、朴素贝叶斯、决策树、支持向量机、K近邻、随机森林、GBDT、XGBoost、神经网络等。S7中评估分类结果的度量有准确率、召回率和F1值。本专利技术中的有益效果是:本专利技术物料数据的小类类别的分类,首先能准确分析数据中存在的问题,如大小写/全半角、连接符、单位不统一,读音相似问题,进行合理的数据预处理过程,将数据规范化、标准化,然后转化成特征向量的形式,采用logistic回归+L2正则化+L-BFGS优化的方法对其进行分类,本专利技术可以实现对物料快速、准确的分类,提高了企业在物料存取的工作效率。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为本专利技术提出的物料数据长描述对应小类名称分类方法的流程图;图2为本专利技术提出的物料数据长描述对应小类名称分类方法中数据预处理的流程图;图3为本专利技术提出的物料数据长描述对应小类名称分类方法中数据预处理的实例流程图。具体实施方式现在结合附图对本专利技术作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。参照图1-2,一种物料数据长描述对应小类名称分类方法,方法步骤如下:S1:原始物料数据:对原始物料的数据进行读入;S2:数据预处理:对读入的原始物料数据进行预处理,将数据规范化、标准化;S3:类别转数字:将原始物料数据类别列编码成数字;S4:样本集划分:将样本集划分为训练集和测试集;S5:特征向量化:将物料长描述转换为特征向量形式;S6:分类:通过学习得到一个目标函数,把每个特征集映射到一个预先定义的类标号;S7:分类结果评估:通过准确率、召回率和F1值来评估分类结果。S2包括如下步骤:S21:对原始物料数据单位和连接符统一;S22:去掉括号和斜杠;S23:中文分词后进行文字转拼音;S24:大写转小写和全角转半角。S3中原始物料数据为物料数据长描述、小类名称。S4中样本集的划分比例为训练集样本量与测试集样本量比例为7:3。S5中特征向量化方法为tf-idf算法。S5中物料长描述为物料文本数据。S6中分类方法为logistic回归、朴素贝叶斯、决策树、支持向量机、K近邻、随机森林、GBDT、XGBoost、神经网络。S7中评估分类结果的方法为logistic回归、朴素贝叶斯、决策树、支持向量机、K近邻、随机森林、XGBoost方法。数据预处理:由于物料数据存在如英文/希腊字母大小写不统一、全半角不统一、乘号/空格/下划线/斜横杠不统一、计量单位不统一、输入语序不统一、读音相似等问题,在转化成特征向量前先进行数据的预处理操作,将数据规范化、标准化。实施例2.1:物料数据长描述径向轴承\N40/50/20T6540可倾瓦,预处理流程的结果如下:实施例2.2:原始物料数据长描述及小类名称如下:经过预处理后的物料数据长描述为:kebiandanhuangzhijiadf07kfa1162327n2747n9↑q321002jdazuhejianshimianxiangjiaodianpiancl300dn25xb350gafsh3401wufengsantongdn50*dn50sch120sch120sht340815crmogb9948shourongredianouredianouwrp–1310–1600sxingl=900shourongruhuabengyeyaguan32*5m类别转数字:为方便分类任务,将类别列全部编码成数字。实施例3.1:原始物料数据的小类名称编码成数字:样本集划分:通常需要一个测试样本集来评估分类器的泛化误差。为此,需要将样本集划分为训练集和测试集,用训练样本集训练出分类器后,以测试样本集上的测试误差作为泛化误差的近似。本专利技术中样本集的划分比例为训练集样本量:测试集样本量=7:3。特征向量化:分类任务的自变量是连续实值向量,因此要把物料长描述(文本数据)转换为特征向量形式。文本向量化的方法主要有词袋模型和tf-idf算法。考虑到物料数据的特点,本专利技术采用tf-idf算法进行特征向量化。tf-idf算法是一种用于评估一个词语对于一个文件集或语料库中的一个文件的重要程度的统计方法。主要思想是:如果某个词语在一篇文章中出现的频率(tf)高,并且在其他文章中很少出现,则认为该词语具有很好的类本文档来自技高网...

【技术保护点】
1.一种物料数据长描述对应小类名称分类方法,方法步骤如下:/nS1:原始物料数据:对原始物料的数据进行读入;/nS2:数据预处理:对读入的原始物料数据进行预处理,将数据规范化、标准化;/nS3:类别转数字:将原始物料数据类别列编码成数字;/nS4:样本集划分:将样本集划分为训练集和测试集;/nS5:特征向量化:将物料长描述转换为特征向量形式;/nS6:分类:通过学习得到一个目标函数,把每个特征集映射到一个预先定义的类标号;/nS7:分类结果评估:通过分类结果度量来评估分类结果。/n

【技术特征摘要】
1.一种物料数据长描述对应小类名称分类方法,方法步骤如下:
S1:原始物料数据:对原始物料的数据进行读入;
S2:数据预处理:对读入的原始物料数据进行预处理,将数据规范化、标准化;
S3:类别转数字:将原始物料数据类别列编码成数字;
S4:样本集划分:将样本集划分为训练集和测试集;
S5:特征向量化:将物料长描述转换为特征向量形式;
S6:分类:通过学习得到一个目标函数,把每个特征集映射到一个预先定义的类标号;
S7:分类结果评估:通过分类结果度量来评估分类结果。


2.根据权利要求1所述的物料数据长描述对应小类名称分类方法,所述S2包括如下步骤:
S21:对原始物料数据单位和连接符统一化;
S22:去掉括号和斜杠;
S23:中文分词后进行文字转拼音;
S24:大写转小写和全角转半角。
...

【专利技术属性】
技术研发人员:隋怡杨浩东张复生
申请(专利权)人:陕西优百信息技术有限公司
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1