当前位置: 首页 > 专利查询>吉林大学专利>正文

一种可避免过拟合的文本分类系统技术方案

技术编号:19140437 阅读:22 留言:0更新日期:2018-10-13 08:43
本发明专利技术涉及一种可避免过拟合的文本分类系统,包含过拟合率判断模块、文本分类模块,过拟合率判断模块用于判断过拟合的严重程度,文本分类模块负责对文本进行分类;本发明专利技术的方法对过拟合问题进行了定量描述,使用了描述过拟合问题的参数RO,RO为过拟合率,用于描述过拟合问题是否发生、严重程度,并且本方法还针对提高过拟合问题中的分类准确率,提出新的方法。

A text categorization system that can avoid over fitting

The invention relates to a text classification system which can avoid over-fitting, including over-fitting rate judgment module and text classification module, over-fitting rate judgment module is used to judge the severity of over-fitting, and text classification module is responsible for text classification; the method of the invention quantitatively describes the over-fitting problem and uses the method of the invention. The parameter RO of over-fitting problem is over-fitting rate, which is used to describe the occurrence and severity of over-fitting problem, and a new method is proposed to improve the classification accuracy of over-fitting problem.

【技术实现步骤摘要】
一种可避免过拟合的文本分类系统
本专利技术涉及机器学习领域,涉及一种可避免过拟合的文本分类系统。
技术介绍
现今,过拟合在机器学习是个很严重的问题,产生的原因为,在实际使用中,因为大部分文本分类方法都采用了向量空间模型,即把每一篇文档看作一个词袋,每个词作为特征。必然会导致冗余向量的产生,并且会产生一个高维稀疏矩阵。但是过分地追求训练集的准确率,会加大模型的复杂性,学习无法学习趋势,而只是将训练数据中的非可预测的特征。如果数据未出现,表现性变差,成为了过拟合。
技术实现思路
有鉴于此,本专利技术提供一种解决或部分解决上述问题的可避免过拟合的文本分类系统。为达到上述技术方案的效果,本专利技术的技术方案为:一种可避免过拟合的文本分类系统,包含:文本分类系统包含过拟合率判断模块、文本分类模块;过拟合率判断模块用于判断过拟合的严重程度,使用过拟合率RO来判断,过拟合率RO的定义如下:其中,o表示测试误差,z表示训练误差,u表示训练集的规模或者迭代次数;过拟合率的正负由测试误差决定,并且与测试误差的正负相反;当过拟合率小于零时,随着训练集的规模或者迭代次数的增大,测试误差o也增大了,过拟合率RO的值越小,那么过拟合的程度越严重;如果需要进一步降低测试误差o,通过增加补偿项以增大训练误差z以避免过拟合;当过拟合率等于0,训练集合增加,测试误差不再变化;过拟合率大于零,表示随着训练规模的增大,测试误差降低;当过拟合率维持正数,不再存在过拟合的问题;训练样本等同于训练样本集合;文本分类模块负责对文本进行分类,分为两步,第一步,预处理过程,第二步,具体的处理过程;预处理过程中,定义文本分类模块的输入以及输出,文本分类模块的输入为训练样本集合D={(x1,y1),...,(xi,yi),...,(xm,ym)},其中,D为训练样本集合,(x1,y1),...,(xi,yi),...,(xm,ym)为训练样本,X={x1,...,xi,...,xm}为训练样本点,Y={y1,,...,yi,...,ym}为训练样本集合的类别标签,x为训练样本点,y为训练样本点的类别标签,为使用分类器后对样本点的分类结果,m为训练样本点的个数;具有相同下标的训练样本点与类别标签为相互对应的,即第i个训练样本点xi的分类结果为yi,i为=1,…,m;文本分类模块的输出为分类器其中,H(x)为分类器H对训练样本点x的分类结果,β(t)表示弱分类器h在第t次迭代时的权重,t表示处于第t次迭代,β表示弱分类器h的权重,I函数表示一种限定关系,限定出现在I前面的函数,将满足I函数括号内条件的出现在I前面的函数的值输出;h(t)(x)表示弱分类器h在第t次迭代对训练样本点x的分类处理结果,k表示对分类结果的假设参数,暂时存储分类结果,T表示迭代的最大次数,为正整数;表示将所有T次迭代的分类器的权重相加,使相加的和达到最大值,获取此种情况下的分类器的分类结果;在具体的处理过程中,具体步骤如下:3)初始化训练样本的权重值为为训练样本集合中的第i个训练样本点xi第1次迭代的权重,i为正整数,上标(1)表示第1次迭代,m表示训练样本点的个数;4)开始迭代,设置迭代的总次数为T,T为正整数;迭代的参数为t,t为正整数,表示处于第t次迭代,t=1,…,T;2.a)输入参数λ以及训练样本集合D,选择D的子集D’,选择训练样本点的个数为c=m×λ,其中,0<λ≤1,具体过程为,将训练样本集合D={(x1,y1),...,(xm,ym)}作为待选择的集合,每次从待选择的集合中选择一个训练样本点,选择的次数为c,c为正整数,选择的步骤为:首先,初始化n=0,n表示选择的计数参数,用于计算已经选择的训练样本的个数,为正整数;iv.为每一个训练样本(xi,yi)赋值选择权重qi,i=1,…,m,选择权重的初始值q0=0,其中q为任意一个选择权重,j为正整数,wj为第j个训练样本点xj的权重;v.生成随机数p,随机数p等于rand(0,qm),即随机产生在0到qm之间的一个数赋值给p,利用选择权重q划分区间集合,区间集合包含的区间为[q0,q1][q1,q2]、[q2,q3],…,[qi,qi+1],…,[qm-1,qm],区间[qi,qi+1]对应于训练样本(xi,yi);qi为第i个选择权重;vi.判断随机数o属于区间集合中包含的区间,从训练样本集合D中调出选择的训练样本放入训练样本集合的子集D',设定两个整数l、r,l初始为0,r初始等于m-1,分别与区间集合中包含的区间[q0,q1]、[qm-1,qm]对应,并且满足ql≤r以及qr>r:循环1的过程为,取中间数如果ql≤r,l=U+1,否则r=U;检查l与r的数值是否相等,如果相等跳出循环1,如果不相等继续执行循环1;ql为第l个选择权重,qr为第r个选择权重;当跳出循环1,将区间[ql,ql+1]从区间集合去除,将(xl,yl)加入训练样本的子集D’,n=n+1,并且转到第i步;当n的值等于c时,训练样本集合D的子集D’被选择完毕;2.b)将训练样本集合D的子集D’以及第t次迭代第i个训练样本点xi的权重wi(t)作为输入参数,进行分类,分类迭代式为h(t)=L(D’,wt(t)),L表示对权重值为wi(t)、训练样本集合D的子集D’进行学习训练,h(t)为弱分类器h的第t次迭代分类结果,文本分类模块中采用了ELM模型作为弱分类器h的学习训练模型,第t次迭代分类的误差e(t)为:h(t)(xi)表示对第t次迭代使用弱分类器h对训练样本点xi进行分类结果,h(t)(xi)≠yi表示第i个训练样本点xi的分类结果不等于相应的分类标签yi,表示第i个训练样本点xi分类结果等于除了分类标签以外的分类结果,为除了分类标签以外的分类结果,表示满足h(t)(xi)≠yi或者的第t次迭代中第i个样本点的权重将满足该式子的所有样本点的权重在所有迭代过程中的数值累积之和,并且将其占总的权重比例计算出来作为第t次迭代的误差;表示不为第i个分类标签yi的任何一个分类结果,如果默认为样本点xi在第t轮迭代的过程中没有经过分类器h的分类;2.c)计算弱分类器h在第t次迭代的权重β(t),计算式如下:在每一次迭代,都通过上式计算弱分类器h在第t次迭代的权重β(t);β表示弱分类器h的权重;2.d)重新调整训练样本的权重,调正的公式如下:根据上一步的弱分类器h在第t次迭代的权重β(t)的值,对其进行限制,h(t)(xi)表示弱分类器h在第t次迭代对第i个样本点xi的分类后的类别标签,xi表示第i个样本点,yi表示第i个类别标签;表示满足h(t)(xi)≠yi或者的第t次迭代中第i个样本点的权重β(t),将其作为e的指数,然后与相乘作为下一次迭代训练样本的权重,为第t次迭代的第i个训练样本的权重,为第t+1次迭代的第i个训练样本的权重;2.e)对下一轮的训练样本权重进行标准化,标准化的计算式如下:t=t+1,当t等于T时,跳出迭代;最后,计算分类器的分类器本专利技术的有益成果为:本专利技术提供的一种可避免过拟合的文本分类系统,本专利技术的方法对过拟合问题进行了定量描述,使用了描述过拟合问题的参数RO,RO为过拟合率,用于描述过拟合问题是否发生、严重程本文档来自技高网...

【技术保护点】
1.一种可避免过拟合的文本分类系统,其特征在于,包含以下内容:所述文本分类系统包含过拟合率判断模块、文本分类模块;所述过拟合率判断模块用于判断过拟合的严重程度,可以为所述文本分类模块提供判断过拟合率的方法;所述过拟合率判断模块中使用过拟合率RO来判断,所述过拟合率RO的定义如下:

【技术特征摘要】
1.一种可避免过拟合的文本分类系统,其特征在于,包含以下内容:所述文本分类系统包含过拟合率判断模块、文本分类模块;所述过拟合率判断模块用于判断过拟合的严重程度,可以为所述文本分类模块提供判断过拟合率的方法;所述过拟合率判断模块中使用过拟合率RO来判断,所述过拟合率RO的定义如下:其中,o表示测试误差,z表示训练误差,u表示训练集的规模或者迭代次数;过拟合率的正负由测试误差决定,并且与测试误差的正负相反;当所述过拟合率小于零时,随着训练集的规模或者迭代次数的增大,测试误差o也增大了,所述过拟合率RO的值越小,那么过拟合的程度越严重;如果需要进一步降低测试误差o,通过增加补偿项以增大所述训练误差z以避免过拟合;当所述过拟合率等于0,训练集合再增加,测试误差不再变化;所述过拟合率大于零,表示随着训练规模的增大,测试误差降低;当所述过拟合率为正,不再存在过拟合的问题;训练集等同于训练样本集合;所述文本分类模块负责对文本进行分类,分为两步,第一步,预处理过程,第二步,具体的处理过程;在所述预处理过程中,所述文本分类模块定义所述文本分类模块的输入以及输出,所述文本分类模块的输入为训练样本集合D={(x1,y1),...,(xi,yi),...,(xm,ym)},其中,D为训练样本集合,(x1,y1),...,(xi,yi),...,(xm,ym)为训练样本,X={x1,...,xi,...,xm}为训练样本点,Y={y1,,...,yi,...,ym}为训练样本集合的类别标签,x为训练样本点,y为训练样本点的类别标签,为使用分类器后对样本点的分类结果,m为训练样本点的个数,由用户输入训练样本集合后进行计算;具有相同下标的所述训练样本点与类别标签为相互对应的,即第i个训练样本点xi的分类结果为yi,i为=1,…,m;所述文本分类模块的输出为分类器其中,H(x)为分类器H对训练样本点x的分类结果,β(t)表示弱分类器h在第t次迭代时的权重,t表示处于第t次迭代,β表示弱分类器h的权重,I函数表示一种限定关系,限定出现在I前面的函数,将满足I函数括号内条件的、并且位置紧临I之前的函数的值输出;h(t)(x)表示弱分类器h在第t次迭代对训练样本点x的分类处理结果,k表示对分类结果的假设参数,暂时存储分类结果,T表示迭代的最大次数,为正整数;表示将所有T次迭代的分类器的权重相加,使相加的和达到最大值,获取此种情况下的分类器的分类结果;在具体的处理过程中,所述文本分类模块执行的具体步骤如下:1)初始化所有训练样本点的权重值为wi(1)为所述训练样本集合中的第i个训练样本点xi在第1次迭代的权重,i为正整数,表示训练样本点在训练样本集合中的标号,上标(1)表示训练样本处于第1次迭代,m表示所述训练样本集合中训练样本点的个数;2)训练样本集合开始迭代,设置迭代的总次数为T,T为正整数;迭代的参数为t,t为正整数,表示处于第t次迭代,t=1,…,T;2.a)所述文本分类模块输入参数λ以及训练样本集合D,并选择D的子集D',设选择训练样本点的个数为c=m×λ,即子集D'中包含的训练样本点的个数为c,其中,0<λ≤1,具体过程为,将训练样本集合D={(x1,y1),...,(xm,ym)}作为待选择的集合,每次从所述待选择的集合中选择一个训练样本点,选择的次数为c,c为正整数,选择的步骤为:首先,初始化n=0,n表示选择的计数参数,用于计算已经选择的训练样本的个数,n为正整数;i.所述文本分类模块为每一个训...

【专利技术属性】
技术研发人员:丰小月丰超时小虎
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1