基于贝叶斯分类的数据集获取方法及装置制造方法及图纸

技术编号：13423047 阅读：51 留言：0更新日期：2016-07-28 18:17

本发明专利技术适用于数据处理领域，提供了一种基于贝叶斯分类的数据集获取方法及装置，所述方法包括：从样本数据库中随机选取样本；将随机选取的样本划分到训练集和测试集中；所述训练集中的样本个数大于所述测试集中的样本个数；确定测试集中的样本在训练集未优化前分类的正确率r1；确定所述测试集中属于第一类的样本和属于第二类的样本的比例k；根据所述r1和k对训练集进行优化处理；将训练集优化处理后的样本作为贝叶斯分类的数据集。本发明专利技术实施例能够使训练集中各个分类的样本比例与总体分布基本相同。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术实施例属于数据处理领域，尤其涉及一种基于贝叶斯分类的数据集获取方法及装置。
技术介绍
随着网络的发展，信息传播的数量越来越多，传播的周期也越来越短。为了尽快获取有用的信息，需要对数量众多的数据进行检索，而检索结果的准确率与预先确定的分类规则有关：分类规则越好，检索结果准确率越高，反之，则检索结果准确率越低。目前，常用贝叶斯分类方法对样本进行分类，该方法是统计学的分类方法，其分类方法的特点是使用概率来表示所有形式的不确定性，学习或推理都要用概率规则来实现。然而，由于直接采用贝叶斯分类方法对样本进行分类，没有对样本进行预处理，因此导致确定的分类规则精确度较低。
技术实现思路
本专利技术实施例提供了一种基于贝叶斯分类的数据集获取方法及装置，旨在解决现有方法没有对样本进行预处理，因此导致确定的分类规则精确度较低的问题。本专利技术实施例是这样实现的，一种基于贝叶斯分类的数据集获取方法，所述方法包括：从样本数据库中随机选取样本；将随机选取的样本划分到训练集和测试集中；所述训练集中的样本个数大于所述测试集中的样本个数；确定测试集中的样本在训练集未优化前分类的正确率r1；确定所述测试集中属于第一类的样本和属于第二类的样本的比例k；根据所述r1和k对训练集进行优化处理；将训练集优化处理后的样本作为贝叶斯分类的数据集。本专利技术实施例的另一目的在于提供一种基于贝叶斯分类的...

【技术保护点】
一种基于贝叶斯分类的数据集获取方法，其特征在于，所述方法包括：从样本数据库中随机选取样本；将随机选取的样本划分到训练集和测试集中；所述训练集中的样本个数大于所述测试集中的样本个数；确定测试集中的样本在训练集未优化前分类的正确率r1；确定所述测试集中属于第一类的样本和属于第二类的样本的比例k；根据所述r1和k对训练集进行优化处理；将训练集优化处理后的样本作为贝叶斯分类的数据集。

【技术特征摘要】
1.一种基于贝叶斯分类的数据集获取方法，其特征在于，所述方法包括：
从样本数据库中随机选取样本；
将随机选取的样本划分到训练集和测试集中；所述训练集中的样本个数大
于所述测试集中的样本个数；
确定测试集中的样本在训练集未优化前分类的正确率r1；
确定所述测试集中属于第一类的样本和属于第二类的样本的比例k；
根据所述r1和k对训练集进行优化处理；
将训练集优化处理后的样本作为贝叶斯分类的数据集。
2.根据权利要求1所述的方法，其特征在于，所述确定测试集中的样本在
训练集未优化前分类的正确率r1，具体包括：
确定误差率P(e)：
P ( e ) = P ( C 0 ) ∫ x 1 p ( X | C 0 ) dX + P ( C 1 ) ∫ x 0 p ( X | C 1 ) dX = P ( C 0 ) Σ x i ∈ X 1 p ( x i | C 0 ) + P ( C 1 ) Σ x i ∈ X 0 p ( x i | C 1 ) , ]]>其中：C0为训练集划分
的第一类，C1为训练集划分的第二类，X为预设的特征词空间，X被划分为属
于C0的X0和属于C1的X1，P(C0)为样本属于C0的概率；p(xi|C0)为属于C0的样本
包含xi的概率，p(xi|C1)为属于C1的样本包含xi的概率；
确定(1-P(e))以得到r1，其中：
r1＝1-P(e)。
3.根据权利要求2所述的方法，其特征在于，所述根据所述r1和k对训练
集进行优化处理，具体包括：
对训练集的每一个样本yi，确定样本yi分别属于C0、C1的概率P(C0/yi)、
P(C1/yi)；
将|P(C0/yi)-P(C1/yi)|与预设的第j个有效值e(j)比较，1≤j≤15,j＝j+1；
在|P(C0/yi)-P(C1/yi)|小于预设的第j个有效值e(j)时，删除样本yi；
采用删除样本后的训练集对测试集的样本进行第j次分类；
确定对测试集的样本进行第j次分类后的正确率rj；
将对测试集的样本进行第j次分类后的正确率rj与对测试集的样本进行第
(j-1)次分类后的正确率rj-1比较；
在rj≥rj-1时，将对测试集的样本进行第j次分类对应的训练集作为优化处理
后的训练集。
4.根据权利要求3所述的方法，其特征在于，所述确定样本yi分别属于C0、
C1的概率P(C0/yi)、P(C1/yi)，具体包括：
将样本yi划分为可识别的词组；
从划分得到的词组中提取样本yi的特征词；
根据P(C0)、P(C1)、在C0中出现提取的样本yi的特征词的概率、在C1中出
现提取的样本yi的特征词的概率，以及出现提取的样本yi的特征词的概率，确
定P(C0/yi)和P(C1/yi)。
5.根据权利要求4所述的方法，其特征在于，在|P(C0/yi)-P(C1/yi)|大于或
等于预设的第j个有效值e(j)时，
确定训练集中属于C0的样本个数n1，以及确定训练集中属于C1的样本个数
n2；
在n1与n2的比值大于k时，删除训练集中属于C0的|P(C0/yi)-P(C1/yi)|较
小的样本，删除的样本个数为(n1-k*n2)。
6.一种基于贝叶斯分类的数据集获取装置，其特征在于，所述装置包括：
样本获取单元，用于从样本数据库中随机选取样本；
样本分类单元，用于将随机选取的样本划分到训练集和测试集中；...

【专利技术属性】
技术研发人员：田旻，刘永明，
申请(专利权)人：TCL集团股份有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人