数据分类方法及装置制造方法及图纸

技术编号:10929281 阅读:110 留言:0更新日期:2015-01-21 10:55
本公开揭示了一种数据分类方法及装置,属于数据分类技术领域。所述数据分类方法包括:获取测试数据,通过预定方法计算得到与测试数据对应的稀疏系数向量;根据训练得到的训练矩阵确定稀疏系数向量中的每个非零变量针对每种类别标签的后验概率;根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;将后验概率之和最大的类别标签所指示的类别,确定为测试数据的类别。通过确定稀疏系数向量中的每个非零变量针对每种类别的后验概率,将后验概率和值最大的类别确定为测试数据的类别;因此解决了一般的分类方法由于需要训练复杂的分类器且存在大量的模型文件,从而使得分类速度较慢的问题;达到了提高分类效率的效果。

【技术实现步骤摘要】

本公开涉及数据分类
,特别涉及一种数据分类方法及装置
技术介绍
分类是一种重要的数据挖掘技术。分类的目的是根据数据集的特点构造一个分类函数或分类器。该分类器能把未知类别的样本映射到给定类别中,如何更好地使用分类器就成了提高分类效果的关键。相关技术中在字典学习与稀疏分解算法的基础上,一般的分类方法会应用复杂的分类器模型,同时对分类器本身进行训练,并需要大量模型文件。专利技术人在实现本公开的过程中,发现相关技术至少存在如下缺陷:一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢。
技术实现思路
为了解决相关技术中一般的分类方法由于需要训练复杂的分类器并且存在大量的模型文件,从而使得分类速度较慢的问题,本公开提供一种数据分类方法及装置。所述技术方案如下:根据本公开实施例的第一方面,提供一种数据分类方法,所述方法包括:获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率;根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。可选的,所述方法还包括:选取第一训练样本集和第二训练样本集;利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率;利用各个位置的变量所对应的后验概率组成所述训练矩阵;其中,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签。可选的,所述根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率,包括:对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向量中所述位置处的变量,利用后验概率公式计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验概率;其中,所述后验概率公式为:P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)其中,先验概率P(Ci)为所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为所述稀疏系数向量中变量xj为非0的概率;条件概率P(xj!=0|C=Ci)为在所述训练稀疏系数向量所对应的训练样本属于第Ci类时,所述稀疏系数向量的变量xj为非0的概率;所述后验概率P(C=Ci|xj!=0)为在所述稀疏系数向量中变量xj为非0时,所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率,i、j为大于0的自然数。可选的,所述利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,包括:将所述第一训练样本集中的各个训练样本变换为列向量,将得到的列向量依序排列成矩阵,构成所述字典,利用第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;或,对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字典的学习,得到所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量;或,根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字典;将各个训练样本子集的字典级联组成获取的所述字典,利用所述第一公式计算得到所述第二训练样本集中的训练样本的稀疏系数向量。其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,所述D为字典,y为所述训练数据,x为上述稀疏系数向量。可选的,所述通过预定方法计算得到与所述测试数据对应的稀疏系数向量,包括:利用训练时得到的所述字典以及所述测试数据,得到所述测试数据对应的稀疏系数向量。根据本公开实施例的第二方面,提供一种数据分类装置,所述装置包括:第一计算模块,被配置为获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;第一确定模块,被配置为对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率;第二计算模块,被配置为根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;第二确定模块,被配置为将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。可选的,所述装置还包括:选取模块,被配置为选取第一训练样本集和第二训练样本集;第三计算模块,被配置为利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,将所述稀疏系数向量确定为训练稀疏系数向量;第四计算模块,被配置为对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概率;组成模块,被配置为利用各个位置的变量所对应的后验概率组成所述训练矩阵;其中,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练稀疏系数向量中的一个位置的变量,每一列对应一个类别标签可选的,所述第四计算模块被配置为对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向量中所述位置处的变量,利用后验概率公式计算本文档来自技高网...
数据分类方法及装置

【技术保护点】
一种数据分类方法,其特征在于,所述方法包括:获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数向量;对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定所述非零变量针对每种类别标签的后验概率;根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后验概率之和;将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类别。

【技术特征摘要】
1.一种数据分类方法,其特征在于,所述方法包括:
获取测试数据,通过预定方法计算得到与所述测试数据对应的稀疏系数向
量,所述稀疏系数向量是所述测试数据映射到训练得到的字典上时得到的系数
向量;
对于所述稀疏系数向量中的每个非零变量,根据训练得到的训练矩阵确定
所述非零变量针对每种类别标签的后验概率;
根据每种类别标签所对应的后验概率,计算得到每种类别标签所对应的后
验概率之和;
将后验概率之和最大的类别标签所指示的类别,确定为所述测试数据的类
别。
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
选取第一训练样本集和第二训练样本集;
利用所述第一训练样本集得到所述字典,对于所述第二训练样本集中的每
个训练样本,计算所述训练样本映射到所述字典时得到的稀疏系数向量,将所
述稀疏系数向量确定为训练稀疏系数向量;
对于每个类别标签所指示的类别,根据各个所述训练稀疏系数向量中的位
于同一位置的各个变量,计算所述位置处的变量为非零时,所述训练稀疏系数
向量所对应的训练样本属于所述类别标签所指示类别的后验概率;
利用各个位置的变量所对应的后验概率组成所述训练矩阵;
其中,所述训练矩阵中一行的数据分别为各个所述训练稀疏系数向量中同
一个位置的变量所对应的后验概率,所述训练矩阵的每一行对应各个所述训练
稀疏系数向量中的一个位置的变量,每一列对应一个类别标签。
3.根据权利要求2所述的方法,其特征在于,所述根据各个所述训练稀疏
系数向量中的位于同一位置的各个变量,计算所述位置处的变量为非零时,所
述训练稀疏系数向量所对应的训练样本属于所述类别标签所指示类别的后验概
率,包括:
对于所述训练稀疏系数向量中的一个位置,获取各个所述训练稀疏系数向
量中所述位置处的变量,利用后验概率公式计算所述位置处的变量为非零时,
所述训练稀疏系数向量所对应的训练样本属于每个类别标签所指示类别的后验
概率;
其中,所述后验概率公式为:
P(C=Ci|xj!=0)=P(xj!=0|C=Ci)P(Ci)/P(xj!=0)
其中,先验概率P(Ci)为所述训练稀疏系数向量所对应的训练样本属于第Ci类的概率;先验概率P(xj!=0)为所述稀疏系数向量中变量xj为非0的概率;条件
概率P(xj!=0|C=Ci)为在所述训练稀疏系数向量所对应的训练样本属于第Ci类时,
所述稀疏系数向量的变量xj为非0的概率;所述后验概率P(C=Ci|xj!=0)为在所述
稀疏系数向量中变量xj为非0时,所述训练稀疏系数向量所对应的训练样本属
于第Ci类的概率,i、j为大于0的自然数。
4.根据权利要求2所述的方法,其特征在于,所述利用所述第一训练样本
集得到所述字典,对于所述第二训练样本集中的每个训练样本,计算所述训练
样本映射到所述字典时得到的稀疏系数向量,包括:
将所述第一训练样本集中的各个训练样本变换为列向量,将得到的列向量
依序排列成矩阵,构成所述字典,利用第一公式计算得到所述第二训练样本集
中的训练样本的稀疏系数向量;
或,
对于所述第一训练样本集中的各个训练样本,采用奇异值分解算法进行字
典的学习,得到所述字典,利用所述第一公式计算得到所述第二训练样本集中
的训练样本的稀疏系数向量;
或,
根据类别对所述第一训练样本集中各个训练样本进行分组,得到至少一个
训练样本子集,每个训练样本子集中的训练样本具有相同的类别;采用奇异值
分解算法分别对各个训练样本子集进行字典学习,得到各个训练样本子集的字
典;将各个训练样本子集的字典级联组成获取的所述字典,利用所述第一公式
计算得到所述第二训练样本集中的训练样本的稀疏系数向量。
其中,所述第一公式为:min(x)||x||1,s.t.y=Dx,所述D为字典,y为所述训练

\t数据,x为上述稀疏系数向量。
5.根据权利要求1至4中任一所述的方法,其特征在于,所述通过预定方
法计算得到与所述测试数据对应的稀疏系数向量,包括:
利用训练时得到的所述字典以及所述测试数据,得到所述测试数据对应的
稀疏系数向量。
6.一种数据分类装置,其特征在于,所述装置包括:
第一计算模块,被配置为获取测试数据,通过预定方法计算得到与所述测
试数据对应的稀疏系数向量,所述稀疏系数向量是所述测试数据映射到训练得
到的字典上时得到的系数向量;
第一确定模块,被配置为对于所述稀...

【专利技术属性】
技术研发人员:龙飞陈志军张涛
申请(专利权)人:小米科技有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1