数据分类模型的训练方法、数据分类方法和电子设备技术

技术编号:37797702 阅读:12 留言:0更新日期:2023-06-09 09:27
本发明专利技术涉及人工智能技术领域,尤其涉及一种数据分类模型的训练方法、数据分类方法和电子设备。其中,数据分类模型的训练方法包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,根据各个数据集样本对应的类别标签和分类结果对初始数据分类模型的模型参数进行更新,以得到训练好的数据分类模型;将预分类数据集基于与分类体系的距离进行归堆,将距离近的数据集输入到预训练好的分类模型中进行分类。通过以上分类模型,对待分类数据进行分类效率较高。分类效率较高。分类效率较高。

【技术实现步骤摘要】
数据分类模型的训练方法、数据分类方法和电子设备


[0001]本专利技术涉及人工智能
,尤其涉及一种数据分类模型的训练方法、数据分类方法和电子设备。

技术介绍

[0002]随着信息技术的不断发展,各行各业积累了大量的数据,如何对数据进行分类管理和存储是需要关注的重点问题。
[0003]例如,伴随着轨道交通科技的不断发展和信息化水平的不断完善,铁路行业积累了海量的数据资源,如何对海量数据资源进行有效管控利用成为了铁路行业亟待解决的问题。铁路数据服务平台是铁路大数据应用的基础支撑,是铁路行业的基础性数据平台,用于整合全路的数据资源。数据分类是建立统一、准确、完善的数据资源目录的基础,也是数据管理的一项关键内容,良好的数据分类有助于帮助企业从海量数据中迅速定位有价值的信息,实现数据的规范存储、管理和高效应用。在当前铁路数据分类过程中,面对海量的铁路数据,不仅需要耗费大量具备铁路业务知识的人力判断标记,还同时要耗费大量资金投入和大量时间,严重影响工作效率。
[0004]因此,现有技术中通过人工对数据进行分类的方法效率较低。

技术实现思路

[0005]本专利技术提供一种数据分类模型的训练方法、数据分类方法和电子设备,用以解决现有技术中通过人工对数据进行分类效率较低的技术问题。
[0006]一方面,本专利技术提供一种数据分类模型的训练方法,包括:
[0007]获取多个数据集样本,以及各个数据集样本对应的类别标签;
[0008]将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;
[0009]根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
[0010]根据本专利技术提供的一种数据分类模型的训练方法,所述初始数据分类模型包括数据预处理模块、特征提取模块、支持向量机网络和层次分类器;所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果包括:
[0011]针对每个所述数据集样本执行以下处理:
[0012]将所述数据集样本输入至所述数据预处理模块中,得到所述数据集样本对应的数据集特征;
[0013]将所述数据集特征输入至所述特征提取模块中,得到所述数据集样本对应的特征集合;
[0014]将所述数据集样本对应的特征集合和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵;
[0015]将所述特征分类矩阵输入至所述层次分类器中,得到所述数据集样本对应的预测分类结果。
[0016]根据本专利技术提供的一种数据分类模型的训练方法,所述初始数据分类模型还包括权重赋值模块;
[0017]所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果还包括:
[0018]将所述特征集合输入至所述权重赋值模块,以对所述特征集合中的每个特征进行权重赋值,得到加权特征集;
[0019]将所述数据集样本对应的加权特征集和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵。
[0020]根据本专利技术提供的一种数据分类模型的训练方法,所述获取多个数据集样本,以及各个数据集样本对应的类别标签包括:
[0021]获取多个初始数据集;
[0022]针对每个所述初始数据集执行以下处理:
[0023]对初始数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将所述初始数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;
[0024]采用最临近算法计算所述第一向量和第二向量之间的距离,将距离小于或等于预设阈值的初始数据集作为数据集样本。
[0025]根据本专利技术提供的一种数据分类模型的训练方法,还包括:将距离大于所述预设阈值的初始数据集作为异常数据集,采用人工提取和标注的方法获取所述异常数据集对应的类别;
[0026]根据所述异常数据集对应的类别更新或者扩展所述预设的数据分类体系叶子节点。
[0027]根据本专利技术提供的一种数据分类模型的训练方法,所述预设的数据分类体系叶子节点为铁路业务数据分类体系叶子节点;
[0028]所述铁路业务数据分类体系叶子节点包括以下类别中的多个:
[0029]人力资源、综合协同、战略决策、建设管理、资产经营开发、财务管理、调度、货运、客户、设施装备、安全管控和物资管理。
[0030]另一方面,本专利技术还提供一种数据分类方法,包括:
[0031]获取待分类的数据集;
[0032]将所述待分类的数据集输入到数据分类模型中,得到所述待分类的数据集的分类结果;其中,所述数据分类模型为上述任一种所述的数据分类模型。
[0033]另一方面,本专利技术还提供一种数据分类模型的训练装置,包括:
[0034]第一获取单元,用于获取多个数据集样本,以及各个数据集样本对应的类别标签;
[0035]第一处理单元,用于将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;
[0036]更新单元,用于根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。
[0037]另一方面,本专利技术还提供一种数据分类装置,包括:
[0038]第二获取单元,用于获取待分类的数据集;
[0039]第二处理单元,用于将所述待分类的数据集输入到数据分类模型中,得到所述待分类的数据集的分类结果;其中,所述数据分类模型为上述任一种所述的数据分类模型。
[0040]另一方面,本专利技术还提供一种电子设备,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述的数据分类模型的训练方法,或者实现如上述任一种所述的数据分类方法。
[0041]本专利技术提供的数据分类模型的训练方法,其包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将多个数据集样本输入到初始数据分类模型中,得到各个数据集样本对应的预测分类结果;根据各个数据集样本对应的类别标签和预测分类结果,对初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。这样采用训练后得到的数据分类模型,对待分类数据进行分类效率较高。
附图说明
[0042]为了更清楚地说明本专利技术或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0043]图1为本专利技术实施例提供的数据分类模型的训练方法的流程示意图;
[0044]图2为本专利技术实施例的初始数据分类模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据分类模型的训练方法,其特征在于,包括:获取多个数据集样本,以及各个数据集样本对应的类别标签;将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果;根据所述各个数据集样本对应的类别标签和预测分类结果,对所述初始数据分类模型的模型参数进行更新,以得到训练后的数据分类模型。2.根据权利要求1所述的数据分类模型的训练方法,其特征在于,所述初始数据分类模型包括数据预处理模块、特征提取模块、支持向量机网络和层次分类器;所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果包括:针对每个所述数据集样本执行以下处理:将所述数据集样本输入至所述数据预处理模块中,得到所述数据集样本对应的数据集特征;将所述数据集特征输入至所述特征提取模块中,得到所述数据集样本对应的特征集合;将所述数据集样本对应的特征集合和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵;将所述特征分类矩阵输入至所述层次分类器中,得到所述数据集样本对应的预测分类结果。3.根据权利要求2所述的数据分类模型的训练方法,其特征在于,所述初始数据分类模型还包括权重赋值模块;所述将所述多个数据集样本输入到初始数据分类模型中,得到所述各个数据集样本对应的预测分类结果还包括:将所述特征集合输入至所述权重赋值模块,以对所述特征集合中的每个特征进行权重赋值,得到加权特征集;将所述数据集样本对应的加权特征集和预设的分类项输入至所述支持向量机网络中,得到包括特征和分类项的特征分类矩阵。4.根据权利要求1所述的数据分类模型的训练方法,其特征在于,所述获取多个数据集样本,以及各个数据集样本对应的类别标签包括:获取多个初始数据集;针对每个所述初始数据集执行以下处理:对初始数据集的名称和预设的数据分类体系叶子节点进行关键特征词提取,采用训练好的GloVe模型将所述初始数据集的名称和预设的数据分类体系叶子节点对应关键词,分别转化为第一向量和第二向量;采用最临近算法计算所述第一向...

【专利技术属性】
技术研发人员:孙思齐邹丹薛蕊王沛然吴江邵赛杨东盛
申请(专利权)人:中国铁道科学研究院集团有限公司电子计算技术研究所北京经纬信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1