一种不均衡文本集的特征选择和权重计算方法技术

技术编号:10141270 阅读:279 留言:0更新日期:2014-06-30 12:16
本发明专利技术提出了一种不均衡文本集的特征选择和权重计算方法,属于文本信息处理领域,具体是涉及不均衡文本集的特征选择和权重计算方法。针对不均衡文本数据的分类问题,本发明专利技术提出一种特征选取和权重计算方法与系统。本发明专利技术结合类别区分度和平均词频因素,通过改进卡方统计量方法进行特征选取,同时对常用的特征权重计算方法进行改进,并在其基础上提出了TF-IDF的权重计算方法,本发明专利技术提供的方法在处理不均衡数据集问题时效果要优于传统的特征选择方法,对于有效提高分类准确率是有效可行的。

【技术实现步骤摘要】
一种不均衡文本集的特征选择和权重计算方法
本专利技术属于文本信息处理领域,具体是涉及不均衡文本集的特征选择和权重计算方法。
技术介绍
随着信息技术的飞速发展和互联网的普及,文本信息资源出现了迅速的膨胀。这些信息资源在为丰富人们知识和提供了便利,但是这其中也含有大量的垃圾信息。作为信息检索技术的主要技术之一,文本分类技术在提高信息检索和过滤系统性能等方面具有很高的应用价值。通常情况下,文本的来源不仅包括网页、邮件,还包括短信、微博和论坛帖子等等。在文本分类过程中,如果将文本表示成向量形式,训练集中的特征可能数以万计。在大量的特征中,很多不相关和冗余的特征需要去除,干扰分类准确性的噪声特征也需要去除。庞大的特征空间维数会降低分类器的性能和泛化能力,同时处理高维向量需要极高的时间复杂度。特征选择作为文本分类技术的重要环节,通过对特征进行降维处理来提高分类器的效率和精度。由于类别信息是文本分类的重要组成部分,文本分类存在类别关系复杂、分布不均衡和类别不确定等问题,这些问题为特征选择研究提出了很多的挑战。很多传统的机器学习方法都是基于数据集均衡情况下的,但是现实应用中,绝大多数据是不均衡的,传统机器学习方法对不均衡数据集的处理效果通常较差。如何有效对不均衡数据集进行处理是数据挖掘领域的一个研究热点。对于不均衡数据集的处理在医疗诊断、金融贷款管理和邮件过滤等领域中有着广阔的前景和实际意义。在对于不均衡问题的处理有两个层面,一是取样层面,二是算法层面。本专利技术给出了特征选取将集中基于不均衡数据集的特征选择方面。专利技术人通过综合考虑不均衡数据集的特征选取方法,给出一种不均衡文本集的特征选择和权重计算方法,克服了传统分类方法面对不均衡数据集的局限性。
技术实现思路
本专利技术的目的在于针对不均衡文本数据的分类问题,提出一种特征选取和权重计算方法与系统。本专利技术结合类别区分度和平均词频因素,通过改进卡方统计量方法进行特征选取。同时还对常用的特征权重计算方法进行改进,并在其基础上提出了TF-IDF的权重计算方法,实验表明,改进方法在处理不均衡数据集问题时效果要优于传统的特征选择方法,对于提高分类准确率是有效可行的。本专利技术是采用以下技术手段实现的:步骤1:对文本集进行文本预处理,提取语义信息,方法如下:步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理。步骤1.2:过滤掉分词处理后的停用词,包括:语气助词、介词、副词。步骤2:进行文本集的特征选择计算,方法如下:对每条预处理后的文本数据集进行如下处理步骤2.1:计算特征t与类别c的CHI统计量包含特征t且属于类别ci,记为A。包含特征t且不属于类别,记为B。不包含特征且属于类别ci,记为C。不包含特征且不属于类别,记为D。特征t与类别c的CHI统计量计算公式为:步骤2.2:计算倒转类别频率ICF其中M是文本集类别的总数,mt是文档集中出现特征t的类别的数目。其中M>0,0≤mt≤M步骤2.3:进行改进的卡方统计量计算其中特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频的比值衡量了特征与类别的相关度,其值越大说明特征t与正类的相关度越大。这里χ2(t,c)取值范围为[0,+∞)之间。步骤3:特征词权重计算,方法如下:对每个文本中的特征词进行权重计算步骤3.1:计算λ因子,方法如下:其中,DF(t,ci)表示ci类中包含特征项t的文本数,D(ci)表示ci类中的文本总数,λ即为某一类别中包含特征词t的文本数占该类文本总数的比例,λ(t,ci)取值范围为[0,1]之间;步骤3.2:计算TF-IDF*λIG数值步骤3.3:计算TF-IDF*λCHI步骤3.2和步骤3.3中公式的参数t表示特征项,其中N是文本集中类别的总数,ni是文本集中出现特征t的类别的数目。tfij表示一个特征词ti在某个文本dj中出现的次数。W(ti,dj)取值范围为[0,1]之间。步骤4:分类结果输出。本专利技术与现有技术相比,具有以下明显的优势和有益效果:专利技术方法综合考虑了特征在正负类别中的分布情况,能够综合的选择代表性和鉴别性比较强的特征,避免传统特征选择方法在不均衡数据集上的不适应性。基于特征结合模式的权重计算方法更好的解决了向量空间维数高和关联特征词的提取问题,提高了分类程序的效率和分类的精度。附图说明图1实现不均衡文本数据集特征选取和权重计算方法及系统的流程图;图2非平衡比下正类的F1值折线图;图3卡方统计量特征选择下的改进后TF-IDF权重计算的实验结果;图4信息增益特征选择下的改进后TF-IDF权重计算的对比结果图。具体实施方式下面结合附图和实施例,对本专利技术的具体实施方式作进一步的详细描述。根据图1所示,本专利技术提出的方法是依次按以下步骤实现的:步骤1:对不均衡文本集进行文本预处理,提取含有语义信息的词。步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理。实验分词处理采用汉语词法分析系统ICTCLAS(InstituteofComputingTechnology,ChineseLexicalAnalysisSystem)。步骤1.2:过滤掉分词处理后的停用词。如语气助词、介词、副词等。文本中如果大量存在停用词会对其有效信息造成噪音干扰。删除停用词后能够达到粗降维的效果,目的是为了提高分类程序的效率和分类的精度。步骤2:进行文本集的特征选择计算对每条预处理后的不均衡文本数据集进行如下处理:步骤2.1:计算特征t与类别c的CHI统计量,这里(t,ci):包含特征t且属于类别ci,记为A。包含特征t且不属于类别,记为B。不包含特征且属于类别ci,记为C。不包含特征且不属于类别记为D。A和D表现了特征t和类别ci的正依赖性,B和D表现了特征t和类别ci的负依赖性。CHI统计特征选择方法中特征t与类别c的CHI统计量计算公式为:步骤2.2:计算不均衡文本集合的倒转类别频率ICF;由于不同的特征对类别的区分度存在着差异,显然正类中的特征具有较好的类别区分度。倒转类别频率ICF(InverseCategoryFrequency)计算公式如下:其中M是文本集C中类别的总数,mi是C中出现特征t的类别的数目。加1是为了避免ICF为0,步骤2.3:进行改进的卡方统计量计算其中特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频的比值衡量了特征与类别的相关度,其值越大说明特征t与正类的相关度越大。步骤3:进行不均衡文本集中特征词权重计算计算特征词权重通过特征词在文本中出现的频率和数目来确定此特征词的权重。本专利技术使用TF‐IDF函数计算特征权重。词频用TF表示,即一个特征词在文本中出现的次数。一个特征词的TF值越大表明其类别代表能力越强。反文本频率用IDF表示,其含义为:如果包含某个特征词的文本数越少,该特征词代表某类文本的能力越强,其权重也越大。TF‐IDF公式是将词频与反文本频率相乘,标准化后的TF‐IDF函数公式为:其中L为常数,根据实验确定。N为总文本数,nj为出现特征词tj的文本数。专利技术人对每个文本中的特征词权重计算方法进行了改进。在基于TF‐IDF的改进过程中加入了特征词对文本类别判别的考虑。使用TF‐IDF表现特征项在文本中出现的频数,用特征选择函数表现特征项本文档来自技高网
...
一种不均衡文本集的特征选择和权重计算方法

【技术保护点】
一种不均衡文本集的特征选择和权重计算方法及系统,按以下步骤实现:步骤1:对文本集进行文本预处理,提取语义信息,方法如下:步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理;步骤1.2:过滤掉分词处理后的停用词,语气助词、介词、副词;步骤2:进行文本集的特征选择计算,方法如下:对每条预处理后的文本数据集进行如下处理步骤2.1:计算特征t与类别c的CHI统计量包含特征t且属于类别ci,记为A;包含特征t且不属于类别,记为B;不包含特征且属于类别ci,记为C;不包含特征且不属于类别,记为D;特征t与类别c的CHI统计量计算公式为:χ2(t,c)={N×(AD-CB)2(A+C)×(B+D)×(A+B)×(C+D),AD-BC>00,AD-BC≤0]]>步骤2.2:计算倒转类别频率ICF;其中M是文本集C中类别的总数,mt是C中出现特征t的类别的数目;ECFt,C=InMmt+1]]>步骤2.3:进行改进的卡方统计量计算,方法如下:χ2(t,c)={N×(AD-CB)2(A+C)×(B+D)×(A+B)×(C+D)×ICFt,C×TCiTCi‾,AD-BC>00,AD-BC≤0]]>其中特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频的比值衡量了特征与类别的相关度,其值越大说明特征t与正类的相关度越大;步骤3:特征词权重计算对每个文本中的特征词进行权重计算步骤3.1:计算λ因子,方法如下:λ(t,ci)=DF(t,ci)D(ci)]]>其中,DF(t,ci)表示ci类中包含特征项t的文本数,D(ci)表示ci类中的文本总数,λ即为某一类别中包含特征词t的文本数占该类文本总数的比例;步骤3.2:计算TF‑IDF*λIG数值,方法如下:w(ti,dj)=tfij*log(Nni)*λIGΣi∈dj[tfij*log(Nni)*λIG]2]]>步骤3.3:计算TF‑IDF*λCHI,方法如下:w(ti,dj)=tfij*log(Nni+L)*λCHIΣi∈dj[tfij*log(Nni+L)*CHI]2]]>步骤4:分类结果输出。...

【技术特征摘要】
1.一种不均衡文本集的特征选择和权重计算方法,按以下步骤实现:步骤1:对文本集进行文本预处理,提取语义信息,方法如下:步骤1.1:利用中文词法处理软件,对文件集合进行分词和词性标注处理;步骤1.2:过滤掉分词处理后的停用词,包括语气助词、介词、副词;步骤2:进行文本集的特征选择计算,方法如下:对每条预处理后的文本数据集进行如下处理;步骤2.1:计算特征t与类别c的CHI统计量;包含特征t且属于类别ci,记为A;包含特征t且不属于类别记为B;不包含特征且属于类别ci,记为C;不包含特征且不属于类别记为D;特征t与类别c的CHI统计量计算公式为:其中N是文本集中类别的总数;步骤2.2:计算倒转类别频率ICF;其中M是文本集C中类别的总数,mt是C中出现特征t的类别的数目;步骤2.3:进行改进的卡方统计量计算,方法如下:其中N是文本集中类别的总数,特征t在正类中出现的平均词频TCi和其在负类中出现的平均词频的比...

【专利技术属性】
技术研发人员:刘磊
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1