数据分类方法及装置制造方法及图纸

技术编号:16390448 阅读:67 留言:0更新日期:2017-10-17 13:38
本公开是关于一种数据分类方法及装置,该方法包括:识别预设样本数据库中每个训练样本的类别;在预设样本数据库中分别选取第一训练样本集和第二训练样本集;确定第一训练样本集的平均样本,利用预设迭代算法对平均样本进行迭代运算得到第一训练样本集的分类字典;将第二训练样本集中的每个训练样本在分类字典下分解得到一个训练稀疏系数向量,并将得到的所有训练稀疏系数向量级联得到训练矩阵;根据第二训练样本集中的每个训练样本的类别确定训练矩阵中每个列向量的类别标签,并保存训练矩阵中每个列向量对应的类别标签。该方法可以使得在数据分类时训练字典的速度提高,消耗的时间减少,提高了数据分类的整体效率。

【技术实现步骤摘要】
数据分类方法及装置
本公开涉及数据挖掘
,尤其涉及一种数据分类方法及装置。
技术介绍
分类可用于预测,预测的目的是从历史数据记录中从而能对未来自动推导出对给定数据的趋势描述,从而能对未来数据进行类预测。数据分类具有广泛的应用,例如:医疗诊断、信用卡系统的信用分级、图像模式识别等领域。分类的目的是学会一个分类器(分类函数或分类模型),该分类器能够把数据块中待分类的数据项映射到给定的某个特定类别中。但相关技术中,在训练分类器时,通常利用大量的随机信号作为输入信号用来训练分类字典(即分类器),这使得分类字典的训练过程复杂而且耗时较长,导致数据分类的速度较慢、效率较低。
技术实现思路
为克服相关技术中存在的问题,本公开提供一种数据分类方法及装置。根据本公开实施例的第一方面,提供一种数据分类方法,包括:识别预设样本数据库中每个训练样的类别;在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本,并利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量,并将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。结合第一方面,在第一方面第一种可能的实现方式中,所述训练样本为图像;所述根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本,包括:计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本。结合第一方面,在第一方面第二种可能的实现方式中,所述预设迭代算法为KSVD算法。结合第一方面第二种可能的实现方式,在第一方面第三种可能的实现方式中,所述利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典,包括:获取初始化字典;利用初始化字典和所述平均样本采用正交匹配跟踪算法计算得到稀疏系数矩阵;根据得到的稀疏系数矩阵利用如下公式迭代地更新分类字典与稀疏系数矩阵;min(X,D)(||Y-DX||F)2s.t.||xi||≤T0,其中X为稀疏系数矩阵,D为分类字典,Y为平均样本对应的矩阵。根据本公开实施例的第二方面,提供一种数据分类方法,包括:在预设样本数据库任意选取一个训练样本作为测试样本;将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量;计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离;根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。结合第二方面,在第二方面第一种可能的实现方式中,所述根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别,包括:比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。根据本公开实施例的第三方面,提供一种数据分类装置,包括:类别识别模块,用于识别预设样本数据库中每个训练样的类别;样本集选取模块,用于在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;平均样本确定模块,用于根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本;计算模块,用于利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;分解模块,用于将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;级联模块,用于将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;类别标签确定模块,用于根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。结合第三方面,在第三方面第一种可能的实现方式中,所述训练样本为图像;平均样本确定模块,包括:平均值计算子模块,用于计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;第一确定子模块,用于将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本。结合第三方面第一种可能的实现方式,在第三方面第二种可能的实现方式中,所述预设迭代算法为KSVD算法;所述计算模块,包括:初始化字典获取子模块,用于获取初始化字典;第一计算子模块,用于利用初始化字典采用正交匹配跟踪算法计算得到稀疏系数矩阵;迭代计算子模块,用于根据得到的稀疏系数矩阵利用如下公式迭代地更新分类字典与稀疏系数矩阵;min(X,D)(||Y-DX||F)2s.t.||xi||≤T0,其中X为稀疏系数矩阵,D为分类字典,Y为平均样本对应的矩阵。根据本公开实施例的第四方面,提供一种数据分类装置,包括:测试样本选取模块,用于在预设样本数据库任意选取一个训练样本作为测试样本;稀疏系数向量确定模块,用于将所述测试样本映射到上述的分类字典上得到所述测试样本的稀疏系数向量;汉明距离计算模块,用于计算所述稀疏系数向量与上述的训练矩阵中每个列向量的汉明距离;目标类别确定模块,用于根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。结合第四方面,在第四方面第一种可能的实现方式中,所述目标类别确定模块,包括:汉明距离比较子模块,用于比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;参考列向量确定子模块,用于在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;类别标签统计子模块,用于根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;第二确定子模块,用于将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。根据本公开实施例的第五方面,提供一种数据分类装置,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为:识别预设样本数据库中每个训练样的类别;在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;根据所述第一训练样本集中的训练样本确定所述第一训练样本集的平均样本;利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向本文档来自技高网...
数据分类方法及装置

【技术保护点】
一种数据分类方法,其特征在于,包括:识别预设样本数据库中每个训练样本的类别;所述训练样本为图像;在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本;利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。

【技术特征摘要】
1.一种数据分类方法,其特征在于,包括:识别预设样本数据库中每个训练样本的类别;所述训练样本为图像;在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本;利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;将得到的所有训练稀疏系数向量级联得到训练矩阵,所述训练矩阵包含有至少两个列向量;根据所述第二训练样本集中的每个训练样本的类别确定所述训练矩阵中每个列向量的类别标签,并保存所述训练矩阵中每个列向量对应的类别标签。2.根据权利要求1所述的方法,其特征在于,所述预设迭代算法为KSVD算法。3.一种数据分类方法,其特征在于,包括:在预设样本数据库任意选取一个训练样本作为测试样本;将所述测试样本映射到上述权利要求1或2中所述的分类字典上得到所述测试样本的稀疏系数向量;计算所述稀疏系数向量与上述权利要求1或2中所述的训练矩阵中每个列向量的汉明距离;根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别。4.根据权利要求3所述的方法,其特征在于,所述根据所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离确定所述测试样本的目标类别,包括:比较所述稀疏系数向量与所述的训练矩阵中所有列向量的汉明距离;在所述训练矩阵中所有列向量选取汉明距离最小的所有列向量作为参考列向量;根据所述训练矩阵中每个列向量对应的类别标签,统计所有所述参考列向量对应的每个类别的类别标签的数量;将数量最多的类别标签所对应的类别确定为所述测试样本的目标类别。5.一种数据分类装置,其特征在于,包括:类别识别模块,用于识别预设样本数据库中每个训练样本的类别;所述训练样本为图像;样本集选取模块,用于在预设样本数据库中分别选取第一训练样本集和第二训练样本集,每个训练样本集都包含有所述预设样本数据库中所有类别的多个训练样本;平均值计算子模块,用于计算所述第一训练样本集中所有训练样本相同位置上像素点的像素值的平均值;第一确定子模块,用于将所有位置像素点的像素值均为对应位置像素点像素值的平均值的样本确定为所述第一训练样本集的平均样本;计算模块,用于利用预设迭代算法对所述平均样本进行迭代运算得到所述第一训练样本集的分类字典;分解模块,用于将所述第二训练样本集中的每个训练样本在所述分类字典下分解得到一个训练稀疏系数向量;...

【专利技术属性】
技术研发人员:龙飞张涛汪平仄
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1