当前位置: 首页 > 专利查询>南京大学专利>正文

一种CCMI文本特征选择方法技术

技术编号:17007795 阅读:189 留言:0更新日期:2018-01-11 04:03
本发明专利技术公开了一种CCMI文本特征选择方法,从预处理过后的语料库中提取所有的特征,构成原始特征集合F;选择改进的χ

【技术实现步骤摘要】
一种CCMI文本特征选择方法
本专利技术属于计算机数据分析与挖掘领域,尤其涉及一种CCMI文本特征选择方法。
技术介绍
文本分类领域面临的挑战之一是“维度灾难”问题。语料库较大时,特征维数通常高达上万维甚至几十万维,此时分类器面临的是一个语料库文本数×特征维数的巨大矩阵,在单机下给分类器带来了巨大的运算压力,甚至无法完成运算。同时,如此高维的特征中,包含不少噪声数据,不仅给分类器带来了较高的计算复杂度,也可能给分类效果带来负面影响。所以,尽量移除对分类没有贡献或者贡献极小的特征,是特征降维的关键。常用的特征选择算法依据其是否使用类别标签,分为两种,一种是无监督的特征权重,典型代表有特征频率(TermFrequency,TF)、文档频率(DocumentFrequency,DF),TF-IDF(TermFrequency-InverseDocumentFrequency)等;另一种是有监督的特征权重,典型代表有期望交叉熵(ExpectedCrossEntropy,ECE)、几率比(OddsRatio,OR)、信息增益(InformationGain,IG)、χ2统计量(Chi-squa本文档来自技高网...
一种CCMI文本特征选择方法

【技术保护点】
一种CCMI文本特征选择方法,其特征在于,包括以下步骤:步骤1,从语料库中提取所有的特征,构成原始特征集合F;步骤2,选择改进的χ

【技术特征摘要】
1.一种CCMI文本特征选择方法,其特征在于,包括以下步骤:步骤1,从语料库中提取所有的特征,构成原始特征集合F;步骤2,选择改进的χ2统计IPX2和改进的互信息IPMI并将二者联合作为评估函数,对原始特征集合F中的每个特征计算其评估函数值;步骤3,对原始特征集合F中的特征根据其评估函数值以从高到低的顺序进行排序,选择前k个特征构成新的特征集合,形成降维后的特征空间V。2.根据权利要求1中所述的方法,其特征在于,步骤2包括如下步骤:步骤2-1,设ci为语料库文本所有类别中的任意一个类别,t为原始特征集合F中的任意一个特征,假定特征t与类别ci相互独立,特征t和类别ci的分布如表1所示:表1定义M表示训练集中文本的总数,A表示属于类别ci并且出现特征t的文本数,B表示不属于类别ci但出现特征t的文本数,C表示属于类别ci但未出现特征t的文本数,D表示不属于类别ci并且未出现特征t的文本数,M=A+B+C+D,从表1得到特征t出现的概率P(t)为:文本类别为ci的概率P(ci)为:在类别ci的文本中出现特征t的概率P(t|ci)为:步骤2-2,训练集中所有属于类别ci的文本中,出现特征t的理论文本数量E11为:步骤2-3,所有不属于类别ci的文本中,出现特征t的理论文本数量E12为:步骤2-4,所有属于类别ci的文本中,未出现特征t的理论文本数量E21为:步骤2-5,所有不属于类别ci的文本中,未出现特征t的理论文本数量E22为:步骤2-6,属于类别ci的所有文本中含有特征t的实际文本数和理论文本数的偏离程度D11为:步骤2-7,不属于类别ci的文本中含有特征t的实际文本数和理论文本数的偏离程度D12为:步骤2-8,属于类别ci的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D21为:步骤2-9,不属于类别ci的所有文本中未出现特征t的实际文本数和理论文本数的偏离程度D22为:步骤2-10,特征t与类别ci的偏离程度χ2(t,ci)为:步骤2-11,引入类内频度、集中度、分散度,对公式(12)进行改进,得到特征t的改进的χ2的评估函数IPX2;步骤2-12,计算特征t与类别ci之间的统计关联程度,即互信息MI(t,ci);步骤2-13,计算特征t在类别间的区分度diff(t,ci,cj...

【专利技术属性】
技术研发人员:柏文阳吴海涛张剡周嵩
申请(专利权)人:南京大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1