一种不均衡文本集的特征选择和权重计算方法技术

技术编号：10141270 阅读：279 留言：0更新日期：2014-06-30 12:16

本发明专利技术提出了一种不均衡文本集的特征选择和权重计算方法，属于文本信息处理领域，具体是涉及不均衡文本集的特征选择和权重计算方法。针对不均衡文本数据的分类问题，本发明专利技术提出一种特征选取和权重计算方法与系统。本发明专利技术结合类别区分度和平均词频因素，通过改进卡方统计量方法进行特征选取，同时对常用的特征权重计算方法进行改进，并在其基础上提出了TF-IDF的权重计算方法，本发明专利技术提供的方法在处理不均衡数据集问题时效果要优于传统的特征选择方法，对于有效提高分类准确率是有效可行的。

全部详细技术资料下载

【技术实现步骤摘要】
一种不均衡文本集的特征选择和权重计算方法
本专利技术属于文本信息处理领域，具体是涉及不均衡文本集的特征选择和权重计算方法。
技术介绍
随着信息技术的飞速发展和互联网的普及，文本信息资源出现了迅速的膨胀。这些信息资源在为丰富人们知识和提供了便利，但是这其中也含有大量的垃圾信息。作为信息检索技术的主要技术之一，文本分类技术在提高信息检索和过滤系统性能等方面具有很高的应用价值。通常情况下，文本的来源不仅包括网页、邮件，还包括短信、微博和论坛帖子等等。在文本分类过程中，如果将文本表示成向量形式，训练集中的特征可能数以万计。在大量的特征中，很多不相关和冗余的特征需要去除，干扰分类准确性的噪声特征也需要去除。庞大的特征空间维数会降低分类器的性能和泛化能力，同时处理高维向量需要极高的时间复杂度。特征选择作为文本分类技术的重要环节，通过对特征进行降维处理来提高分类器的效率和精度。由于类别信息是文本分类的重要组成部分，文本分类存在类别关系复杂、分布不均衡和类别不确定等问题，这些问题为特征选择研究提出了很多的挑战。很多传统的机器学习方法都是基于数据集均衡情况下的，但是现实应用中，绝大多数据是不均衡的，传统机器学习方法对不均衡数据集的处理效果通常较差。如何有效对不均衡数据集进行处理是数据挖掘领域的一个研究热点。对于不均衡数据集的处理在医疗诊断、金融贷款管理和邮件过滤等领域中有着广阔的前景和实际意义。在对于不均衡问题的处理有两个层面，一是取样层面，二是算法层面。本专利技术给出了特征选取将集中基于不均衡数据集的特征选择方面。专利技术人通过综合考虑不均衡数据集的特征选取方法，给出一种...
一种不均衡文本集的特征选择和权重计算方法

【技术保护点】
一种不均衡文本集的特征选择和权重计算方法及系统，按以下步骤实现：步骤1：对文本集进行文本预处理，提取语义信息，方法如下：步骤1.1：利用中文词法处理软件，对文件集合进行分词和词性标注处理；步骤1.2：过滤掉分词处理后的停用词,语气助词、介词、副词；步骤2：进行文本集的特征选择计算，方法如下：对每条预处理后的文本数据集进行如下处理步骤2.1：计算特征t与类别c的CHI统计量包含特征t且属于类别ci，记为A；包含特征t且不属于类别，记为B；不包含特征且属于类别ci，记为C；不包含特征且不属于类别，记为D；特征t与类别c的CHI统计量计算公式为：χ2(t,c)={N×(AD-CB)2(A+C)×(B+D)×(A+B)×(C+D),AD-BC>00,AD-BC≤0]]>步骤2.2：计算倒转类别频率ICF；其中M是文本集C中类别的总数，mt是C中出现特征t的类别的数目；ECFt,C=InMmt+1]]>步骤2.3：进行改进的卡方统计量计算,方法如下：χ2(t,c)={N×(AD-CB)2(A+C)×(B...

【技术特征摘要】
1.一种不均衡文本集的特征选择和权重计算方法，按以下步骤实现：步骤1：对文本集进行文本预处理，提取语义信息，方法如下：步骤1.1：利用中文词法处理软件，对文件集合进行分词和词性标注处理；步骤1.2：过滤掉分词处理后的停用词，包括语气助词、介词、副词；步骤2：进行文本集的特征选择计算，方法如下：对每条预处理后的文本数据集进行如下处理；步骤2.1：计算特征t与类别c的CHI统计量；包含特征t且属于类别ci，记为A；包含特征t且不属于类别记为B；不包含特征且属于类别ci，记为C；不包含特征且不属于类别记为D；特征t与类别c的CHI统计量计算公式为：其中N是文本集中类别的总数；步骤2.2：计算倒转类别频率ICF；其中M是文本集C中类别的总数，mt是C中出现特征t的类别的数目；步骤2.3：进行改进的卡方统计量计算,方法如下：其中N是文本集中类别的总数，特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频的比...

【专利技术属性】
技术研发人员：刘磊，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人