一种可避免过拟合的文本分类系统技术方案

技术编号：19140437 阅读：22 留言：0更新日期：2018-10-13 08:43

本发明专利技术涉及一种可避免过拟合的文本分类系统，包含过拟合率判断模块、文本分类模块，过拟合率判断模块用于判断过拟合的严重程度，文本分类模块负责对文本进行分类；本发明专利技术的方法对过拟合问题进行了定量描述，使用了描述过拟合问题的参数RO，RO为过拟合率，用于描述过拟合问题是否发生、严重程度，并且本方法还针对提高过拟合问题中的分类准确率，提出新的方法。

A text categorization system that can avoid over fitting

The invention relates to a text classification system which can avoid over-fitting, including over-fitting rate judgment module and text classification module, over-fitting rate judgment module is used to judge the severity of over-fitting, and text classification module is responsible for text classification; the method of the invention quantitatively describes the over-fitting problem and uses the method of the invention. The parameter RO of over-fitting problem is over-fitting rate, which is used to describe the occurrence and severity of over-fitting problem, and a new method is proposed to improve the classification accuracy of over-fitting problem.

全部详细技术资料下载

【技术实现步骤摘要】
一种可避免过拟合的文本分类系统
本专利技术涉及机器学习领域，涉及一种可避免过拟合的文本分类系统。
技术介绍
现今，过拟合在机器学习是个很严重的问题，产生的原因为，在实际使用中，因为大部分文本分类方法都采用了向量空间模型，即把每一篇文档看作一个词袋，每个词作为特征。必然会导致冗余向量的产生，并且会产生一个高维稀疏矩阵。但是过分地追求训练集的准确率，会加大模型的复杂性，学习无法学习趋势，而只是将训练数据中的非可预测的特征。如果数据未出现，表现性变差，成为了过拟合。
技术实现思路
有鉴于此，本专利技术提供一种解决或部分解决上述问题的可避免过拟合的文本分类系统。为达到上述技术方案的效果，本专利技术的技术方案为：一种可避免过拟合的文本分类系统，包含：文本分类系统包含过拟合率判断模块、文本分类模块；过拟合率判断模块用于判断过拟合的严重程度，使用过拟合率RO来判断，过拟合率RO的定义如下：其中，o表示测试误差，z表示训练误差，u表示训练集的规模或者迭代次数；过拟合率的正负由测试误差决定，并且与测试误差的正负相反；当过拟合率小于零时，随着训练集的规模或者迭代次数的增大，测试误差o也增大了，过拟合率RO的值越小，那么过拟合的程度越严重；如果需要进一步降低测试误差o，通过增加补偿项以增大训练误差z以避免过拟合；当过拟合率等于0，训练集合增加，测试误差不再变化；过拟合率大于零，表示随着训练规模的增大，测试误差降低；当过拟合率维持正数，不再存在过拟合的问题；训练样本等同于训练样本集合；文本分类模块负责对文本进行分类，分为两步，第一步，预处理过程，第二步，具体的处理过程；预处理过程中，...

【技术保护点】
1.一种可避免过拟合的文本分类系统，其特征在于，包含以下内容：所述文本分类系统包含过拟合率判断模块、文本分类模块；所述过拟合率判断模块用于判断过拟合的严重程度，可以为所述文本分类模块提供判断过拟合率的方法；所述过拟合率判断模块中使用过拟合率RO来判断，所述过拟合率RO的定义如下：

【技术特征摘要】
1.一种可避免过拟合的文本分类系统，其特征在于，包含以下内容：所述文本分类系统包含过拟合率判断模块、文本分类模块；所述过拟合率判断模块用于判断过拟合的严重程度，可以为所述文本分类模块提供判断过拟合率的方法；所述过拟合率判断模块中使用过拟合率RO来判断，所述过拟合率RO的定义如下：其中，o表示测试误差，z表示训练误差，u表示训练集的规模或者迭代次数；过拟合率的正负由测试误差决定，并且与测试误差的正负相反；当所述过拟合率小于零时，随着训练集的规模或者迭代次数的增大，测试误差o也增大了，所述过拟合率RO的值越小，那么过拟合的程度越严重；如果需要进一步降低测试误差o，通过增加补偿项以增大所述训练误差z以避免过拟合；当所述过拟合率等于0，训练集合再增加，测试误差不再变化；所述过拟合率大于零，表示随着训练规模的增大，测试误差降低；当所述过拟合率为正，不再存在过拟合的问题；训练集等同于训练样本集合；所述文本分类模块负责对文本进行分类，分为两步，第一步，预处理过程，第二步，具体的处理过程；在所述预处理过程中，所述文本分类模块定义所述文本分类模块的输入以及输出，所述文本分类模块的输入为训练样本集合D＝{(x1,y1),...,(xi,yi),...,(xm,ym)}，其中，D为训练样本集合，(x1,y1),...,(xi,yi),...,(xm,ym)为训练样本，X＝{x1,...，xi,...,xm}为训练样本点，Y＝{y1,,...，yi,...,ym}为训练样本集合的类别标签，x为训练样本点，y为训练样本点的类别标签，为使用分类器后对样本点的分类结果，m为训练样本点的个数，由用户输入训练样本集合后进行计算；具有相同下标的所述训练样本点与类别标签为相互对应的，即第i个训练样本点xi的分类结果为yi，i为＝1，…，m；所述文本分类模块的输出为分类器其中，H(x)为分类器H对训练样本点x的分类结果，β(t)表示弱分类器h在第t次迭代时的权重，t表示处于第t次迭代，β表示弱分类器h的权重，I函数表示一种限定关系，限定出现在I前面的函数，将满足I函数括号内条件的、并且位置紧临I之前的函数的值输出；h(t)(x)表示弱分类器h在第t次迭代对训练样本点x的分类处理结果，k表示对分类结果的假设参数，暂时存储分类结果，T表示迭代的最大次数，为正整数；表示将所有T次迭代的分类器的权重相加，使相加的和达到最大值，获取此种情况下的分类器的分类结果；在具体的处理过程中，所述文本分类模块执行的具体步骤如下：1)初始化所有训练样本点的权重值为wi(1)为所述训练样本集合中的第i个训练样本点xi在第1次迭代的权重，i为正整数，表示训练样本点在训练样本集合中的标号，上标(1)表示训练样本处于第1次迭代，m表示所述训练样本集合中训练样本点的个数；2)训练样本集合开始迭代，设置迭代的总次数为T，T为正整数；迭代的参数为t，t为正整数，表示处于第t次迭代，t＝1，…，T；2.a)所述文本分类模块输入参数λ以及训练样本集合D，并选择D的子集D'，设选择训练样本点的个数为c＝m×λ，即子集D'中包含的训练样本点的个数为c，其中，0<λ≤1，具体过程为，将训练样本集合D＝{(x1,y1),...,(xm,ym)}作为待选择的集合，每次从所述待选择的集合中选择一个训练样本点，选择的次数为c，c为正整数，选择的步骤为：首先，初始化n＝0，n表示选择的计数参数，用于计算已经选择的训练样本的个数，n为正整数；i.所述文本分类模块为每一个训...

【专利技术属性】
技术研发人员：丰小月，丰超，时小虎，
申请(专利权)人：吉林大学，
类型：发明
国别省市：吉林,22

全部详细技术资料下载我是这个专利的主人