【技术实现步骤摘要】
工业数据的分类方法及其模型训练方法、装置
[0001]本专利技术涉及数据分类
,尤其是涉及一种工业数据的分类方法及其模型训练方法、装置。
技术介绍
[0002]工业数据分类分级能够促进工业数据的使用、流动与共享,释放数据潜在价值。工业数据主要是文本形式存在于各个生命周期中,如何精准的对工业数据进行分类,已成为提高工业数据的分析汇总结果的重要手段。
[0003]现有技术中对于工业数据的分类主要采用人工分析手段,依赖操作人员的经验,容易受到主观认知的制约,效率较低;虽然现有技术中已使用一些模型进行工业数据的分析,但模型训练过程中需要大量标注数据进行训练,而这些标注数据也需要消耗较多的人力成本和时间成本。
[0004]综上所示,现有技术中在对工业数据进行分类的过程中还存在着相关模型训练过程复杂、人力成本较高的问题。
技术实现思路
[0005]有鉴于此,本专利技术的目的在于提供一种工业数据的分类方法及其模型训练方法、装置,该模型在训练过程中通过利用预设选样策略对扩展集中的工业数据进行筛选,并利用 ...
【技术保护点】
【技术特征摘要】
1.一种用于工业数据分类的模型训练方法,其特征在于,所述方法包括:获取包含工业数据的多个数据集;其中,所述数据集至少包括:训练集、测试集以及扩展集;将所述数据集输入至预先构建的初始工业数据分类模型中,利用预设选样策略对所述扩展集中的所述工业数据进行筛选,得到所述扩展集的筛选结果;利用所述扩展集的筛选结果更新所述训练集中的工业数据,对已完成更新的所述训练集进行分类分级训练,实时获取所述训练集的分类分级结果;利用所述测试集对所述训练集的分类分级结果进行性能评估,得到所述初始工业数据分类模型的性能评估结果;当所述性能评估结果满足预设阈值条件时,停止所述模型的训练,得到用于工业数据分类的模型。2.根据权利要求1所述的用于工业数据分类的模型训练方法,其特征在于,当所述性能评估结果不满足预设阈值条件时,所述方法还包括:根据所述初始工业数据分类模型的性能评估结果,利用预设选样策略对所述扩展集中的所述工业数据进行二次筛选,得到所述扩展集的二次筛选结果;将所述扩展集的二次筛选结果进行分类分级标注后,添加至所述训练集中。3.根据权利要求1所述的用于工业数据分类的模型训练方法,其特征在于,对已完成更新的所述训练集进行分类分级训练,实时获取所述训练集的分类分级结果的过程,包括:对所述训练集中的工业数据进行分词处理,确定所述训练集中所述工业数据对应的词向量;将所述词向量输入至已初始化的LSTM网络中进行特征提取,并将所述LSTM网络输出的特征提取结果进行合并;将已合并的所述特征提取结果输入至已初始化的分级分类网络中,并将所述分级分类网络确定的概率值最大的级别和类别确定为所述训练集的分类分级结果。4.根据权利要求3所述的用于工业数据分类的模型训练方法,其特征在于,将已合并的所述特征提取结果输入至已初始化的分级分类网络中,并将所述分级分类网络确定的概率值最大的级别和类别确定为所述训练集的分类分级结果,包括:将已合并的所述特征提取结果分别输入至已初始化的DNN网络以及CNN网络中;其中,所述DNN网络用于确定所述训练集的分类结果;所述CNN网络用于确定所述训练集的分级结果;利用Sortmax函数分别确定所述DNN网络输出的分类概率值以及所述CNN网络输出的级别概率值;将所述分类概率值中最大值对应的类别以及所述级别概率值中最大值对应的级别确定为所述训练集的分类分级结果。5.根据权利要求1所述的用于工业数据分类的模型训练方法,其特征在于,利用预设选样策略对所述扩展集中的所述工业数据进行筛选,得到所述扩展集的筛选结果,包括:计算所述扩展集中的所述工业数据的信息熵以及相似度结果,并根据所述信息熵以及相似度结果从预设选样策略中确定选样算法;其中,所述选样算法至少包括:不确定性选样算法和多样性选样算法;
利用已确定的所述选样算法对所述扩展集中的所述工业数据进行选样得到选样结果;获取所述选样结果的安全等级,并根据所述安全等级对所述工业数据进行筛选,得到所述扩展集的筛选结果。6.根据权利要求5所述的用于工业数据分类的模型训练方法,其特征在于,若所述选样算法为不确定性选样算法,则利用已确定的所述选样算法对所述...
【专利技术属性】
技术研发人员:张坤宇,刘明伟,詹威威,崔志群,杜志彪,
申请(专利权)人:天津卓朗科技发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。