基于贝叶斯分类的数据集获取方法及装置制造方法及图纸

技术编号:13423047 阅读:51 留言:0更新日期:2016-07-28 18:17
本发明专利技术适用于数据处理领域,提供了一种基于贝叶斯分类的数据集获取方法及装置,所述方法包括:从样本数据库中随机选取样本;将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数;确定测试集中的样本在训练集未优化前分类的正确率r1;确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;根据所述r1和k对训练集进行优化处理;将训练集优化处理后的样本作为贝叶斯分类的数据集。本发明专利技术实施例能够使训练集中各个分类的样本比例与总体分布基本相同。

【技术实现步骤摘要】

本专利技术实施例属于数据处理领域,尤其涉及一种基于贝叶斯分类的数据集获取方法及装置
技术介绍
随着网络的发展,信息传播的数量越来越多,传播的周期也越来越短。为了尽快获取有用的信息,需要对数量众多的数据进行检索,而检索结果的准确率与预先确定的分类规则有关:分类规则越好,检索结果准确率越高,反之,则检索结果准确率越低。目前,常用贝叶斯分类方法对样本进行分类,该方法是统计学的分类方法,其分类方法的特点是使用概率来表示所有形式的不确定性,学习或推理都要用概率规则来实现。然而,由于直接采用贝叶斯分类方法对样本进行分类,没有对样本进行预处理,因此导致确定的分类规则精确度较低。
技术实现思路
本专利技术实施例提供了一种基于贝叶斯分类的数据集获取方法及装置,旨在解决现有方法没有对样本进行预处理,因此导致确定的分类规则精确度较低的问题。本专利技术实施例是这样实现的,一种基于贝叶斯分类的数据集获取方法,所述方法包括:从样本数据库中随机选取样本;将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数;确定测试集中的样本在训练集未优化前分类的正确率r1;确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;根据所述r1和k对训练集进行优化处理;将训练集优化处理后的样本作为贝叶斯分类的数据集。本专利技术实施例的另一目的在于提供一种基于贝叶斯分类的数据集获取装置,所述装置包括:样本获取单元,用于从样本数据库中随机选取样本;样本分类单元,用于将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数;初始分类正确率确定单元,用于确定测试集中的样本在训练集未优化前分类的正确率r1;测试集的样本比例确定单元,用于确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;训练集优化处理单元,用于根据所述r1和k对训练集进行优化处理;贝叶斯分类的数据集确定单元,用于将训练集优化处理后的样本作为贝叶斯分类的数据集。在本专利技术实施例中,由于对训练集进行了优化处理,保持特征明显的样本,删除特征不明显的样本,且使训练集中各个分类的样本比例和总体分布基本相同,使训练集没有发生偏斜,因此,在采用优化后的训练集去训练生成分类器,然后用该分类器对海量数据进行分类时,分类更精确。附图说明图1是本专利技术第一实施例提供的一种基于贝叶斯分类的数据集获取方法的流程图;图2是本专利技术第二实施例提供的一种基于贝叶斯分类的数据集获取装置的结构图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术实施例中,将随机选取的样本划分到训练集和测试集中,并确定测试集中的样本在训练集未优化前分类的正确率r1,以及确定所述测试集中属于第一类的样本和属于第二类的样本的比例k,再根据所述r1和k对训练集进行优化处理,最后将训练集优化处理后的样本作为贝叶斯分类的数据集。为了说明本专利技术所述的技术方案,下面通过具体实施例来进行说明。实施例一:图1示出了本专利技术第一实施例提供的一种基于贝叶斯分类的数据集获取方法的流程图,在本专利技术实施例中,在采用贝叶斯分类方法对数据进行分类之前,对数据进行优化处理,以提高贝叶斯分类方法确定的分类规则的精确率,详述如下:步骤S11,从样本数据库中随机选取样本。该步骤中,从样本数据库中随机选取样本。比如,假设样本数据库中存储N个样本,则随机选取数量为N/10的样本。具体随机选取的样本数量可以预先设置,当然,若样本数据库存储的样本数量较少,则随机选取数量大于N/10的样本,具体根据实际情况确定,此处不作限定。步骤S12,将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数。在本专利技术实施例中,由于需要对训练集进行优化处理(如删除训练集中类别划分错误的样本),因此,需要保证训练集的样本个数大于测试集中的样本个数。例如,假设步骤S11选取的样本数为Sp,则将Sp的前2/3的样本作为训练集Sp_e,剩余的1/3的样本作为测试集Sp_t,其中训练集以及测试集样本的数量为预先设定好的。步骤S13,确定测试集中的样本在训练集未优化前分类的正确率r1。假设训练集划分的类别为两类:第一类和第二类。则采用测试集中的样本测试训练集划分的类的正确率。可选地,所述确定测试集中的样本在训练集未优化前分类的正确率r1,具体包括:A1、确定误差率P(e): P ( e ) = P ( C 0 ) ∫ x 1 p ( X | C 0 ) dX + P ( C 1 ) ∫ x 0 p 本文档来自技高网...

【技术保护点】
一种基于贝叶斯分类的数据集获取方法,其特征在于,所述方法包括:从样本数据库中随机选取样本;将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大于所述测试集中的样本个数;确定测试集中的样本在训练集未优化前分类的正确率r1;确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;根据所述r1和k对训练集进行优化处理;将训练集优化处理后的样本作为贝叶斯分类的数据集。

【技术特征摘要】
1.一种基于贝叶斯分类的数据集获取方法,其特征在于,所述方法包括:
从样本数据库中随机选取样本;
将随机选取的样本划分到训练集和测试集中;所述训练集中的样本个数大
于所述测试集中的样本个数;
确定测试集中的样本在训练集未优化前分类的正确率r1;
确定所述测试集中属于第一类的样本和属于第二类的样本的比例k;
根据所述r1和k对训练集进行优化处理;
将训练集优化处理后的样本作为贝叶斯分类的数据集。
2.根据权利要求1所述的方法,其特征在于,所述确定测试集中的样本在
训练集未优化前分类的正确率r1,具体包括:
确定误差率P(e):
P ( e ) = P ( C 0 ) ∫ x 1 p ( X | C 0 ) dX + P ( C 1 ) ∫ x 0 p ( X | C 1 ) dX = P ( C 0 ) Σ x i ∈ X 1 p ( x i | C 0 ) + P ( C 1 ) Σ x i ∈ X 0 p ( x i | C 1 ) , ]]>其中:C0为训练集划分
的第一类,C1为训练集划分的第二类,X为预设的特征词空间,X被划分为属
于C0的X0和属于C1的X1,P(C0)为样本属于C0的概率;p(xi|C0)为属于C0的样本
包含xi的概率,p(xi|C1)为属于C1的样本包含xi的概率;
确定(1-P(e))以得到r1,其中:
r1=1-P(e)。
3.根据权利要求2所述的方法,其特征在于,所述根据所述r1和k对训练
集进行优化处理,具体包括:
对训练集的每一个样本yi,确定样本yi分别属于C0、C1的概率P(C0/yi)、
P(C1/yi);
将|P(C0/yi)-P(C1/yi)|与预设的第j个有效值e(j)比较,1≤j≤15,j=j+1;
在|P(C0/yi)-P(C1/yi)|小于预设的第j个有效值e(j)时,删除样本yi;
采用删除样本后的训练集对测试集的样本进行第j次分类;
确定对测试集的样本进行第j次分类后的正确率rj;
将对测试集的样本进行第j次分类后的正确率rj与对测试集的样本进行第
(j-1)次分类后的正确率rj-1比较;
在rj≥rj-1时,将对测试集的样本进行第j次分类对应的训练集作为优化处理
后的训练集。
4.根据权利要求3所述的方法,其特征在于,所述确定样本yi分别属于C0、
C1的概率P(C0/yi)、P(C1/yi),具体包括:
将样本yi划分为可识别的词组;
从划分得到的词组中提取样本yi的特征词;
根据P(C0)、P(C1)、在C0中出现提取的样本yi的特征词的概率、在C1中出
现提取的样本yi的特征词的概率,以及出现提取的样本yi的特征词的概率,确
定P(C0/yi)和P(C1/yi)。
5.根据权利要求4所述的方法,其特征在于,在|P(C0/yi)-P(C1/yi)|大于或
等于预设的第j个有效值e(j)时,
确定训练集中属于C0的样本个数n1,以及确定训练集中属于C1的样本个数
n2;
在n1与n2的比值大于k时,删除训练集中属于C0的|P(C0/yi)-P(C1/yi)|较
小的样本,删除的样本个数为(n1-k*n2)。
6.一种基于贝叶斯分类的数据集获取装置,其特征在于,所述装置包括:
样本获取单元,用于从样本数据库中随机选取样本;
样本分类单元,用于将随机选取的样本划分到训练集和测试集中;...

【专利技术属性】
技术研发人员:田旻刘永明
申请(专利权)人:TCL集团股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1