当前位置: 首页 > 专利查询>吴国华专利>正文

基于信息熵的期望交叉熵特征选择文本分类系统及方法技术方案

技术编号:13778107 阅读:84 留言:0更新日期:2016-10-01 04:39
本发明专利技术公开了一种基于信息熵的期望交叉熵特征选择文本分类系统及方法。本发明专利技术系统包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。本发明专利技术能够提高文本分类的精度,改善分类效果。

【技术实现步骤摘要】

本专利技术属于计算机科学与
,具体涉及一种基于信息熵的期望交叉熵特征选择文本分类系统及方法
技术介绍
随着计算机技术和互联网技术的发展,互联网上的信息呈爆炸式增长。文本自动分类已逐渐成为获取知识和信息的有效手段,因为它可以处理和组织大量的文本数据。目前,文本分类广泛应用于邮件分类、信息检索、网页查重、数字图书馆等。文本以向量空间模型形式进行结构化表示。在向量模型下,文本分类的主要问题是特征空间的高维性以及数据稀疏性问题。高维特征空间不仅会增加分类过程的开销,而且影响分类精度。因此,特征维度约减成为文本自动分类技术研究的核心问题,而特征选择是文本特征维度约减的一种主要模式。特征选择是从原始特征集中依据某种评估函数选择出对分类贡献较大的特征项,用这些特征项来组成文本特征子集,用于文本的表示。目前,常用的特征选择方法有文档频率(DF)、信息增益(IG)、互信息(MI)、χ2统计、期望交叉熵(CEC)和文本证据权等过滤式特征选择算方法。该类算法不依赖具体的分类器,提供一个评估函数,通过比较特征项的函数值,将特征项按照函数值从高到低进行排序,从而选择出重要的特征项。在这些特征选择方法中,期望交叉熵具有较低复杂度和较好的降维效果,因此,该算法是目前应用比较广泛的特征选择算法。但是,该算法最明显的不足在于其只考虑了特征与类别之间的相关性,而忽略了特征项词频在类内和类别间分布情况。
技术实现思路
基于现有期望交叉熵方法只考虑了特征项的文档频率,并没有考虑特征项词频在类别中分布的差异性问题,本专利技术公开了一种基于信息熵的期望交叉熵文本分类特征选择方法,利用类间信息熵来修正现有期望交叉熵在特征选择时,特征项在类间分布的集中性考虑不足的缺陷;利用类内信息熵来修正现有期望交叉熵在特征选择时,特征项在类内分布的均匀性考虑不足的缺陷。为了达到上述专利技术目的,本专利技术提供如下技术方案:基于信息熵的期望交叉熵特征选择文本分类系统,包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。本专利技术还公开了一种基于信息熵的期望交叉熵特征选择文本分类方法,按如下步骤:(1)、收集不同类别文本,分析整理后按类别归入语料训练集。(2)、对训练集进行预处理,包括中文分词、去停用词等来过滤噪声数据、改善文本数据质量等。(3)、利用基于信息熵的期望交叉熵方法计算特征向量空间中特征项评估函数值,基于信息熵的期望交叉熵函数公式为: E C E _ I E ( t k ) = E C E ( t k ) × max 1 ≤ j ≤ n { E i n ( t k , c j )本文档来自技高网...

【技术保护点】
基于信息熵的期望交叉熵特征选择文本分类系统,其特征是包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。

【技术特征摘要】
1.基于信息熵的期望交叉熵特征选择文本分类系统,其特征是包括依次相联的数据收集及预处理单元、特征选择单元、特征权重计算单元、分类器单元、分类选优单元;数据收集及预处理单元,用于从互联网上收集不同类别语料,分为训练语料和测试语料,并对语料进行预处理,预处理包括文本分词和去停用词;特征选择单元,用于选择语料中的特征项,根据特征选择评估函数从特征项表中选择出不同数目的特征项,组成特征项集合;特征权重计算单元,用于计算特征项的权重值;分类单元,用于对语料文本进行分类;分类选优单元,用于对比不同分类结果,找到最佳分类效果时的特征项数目。2.基于信息熵的期望交叉熵特征选择文本分类方法,其按如下步骤:(1)、收集不同类别文本,分析整理后按类别归入语料训练集;(2)、对语料训练集的文本进行预处理,包括分词和去停用词;(3)、利用期望交叉熵特征评估函数进行特征值评估,基于信息熵的期望交叉熵函数公式为: E ...

【专利技术属性】
技术研发人员:吴国华王刘阳张祯王玉娟
申请(专利权)人:吴国华
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1