一种基于LZW压缩算法的中文文本分类特征词典生成方法技术

技术编号:2913978 阅读:660 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及计算机应用中的文本挖掘和知识获取领域,特别涉及一种基于LZW压缩算法的中文文本分类特征词典生成方法。它包括以下步骤:首先假设待分类的文本的r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_table↓[i],其中i=1,…,r;然后,将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_table↓[i];最后,多重过滤字符串后形成r类文本分类的特征词典。

【技术实现步骤摘要】

本专利技术涉及计算机应用中的文本挖掘和知识获取领域,特别涉及一种基于LZW压缩算法的中文文本分类特征词典生成方法。
技术介绍
特征词典是文本分类中用来表示文本的所有特征词的集合。目前,中文文本分类特征词典生成方法主要是基于中文分词处理之后进行特征词选择,中文分词工具往往是不可缺少的,且分词工具性能的优劣对最终的文本分类效果影响不可忽略。特征选择通常采用特征过滤法、特征重构法、或潜在语义索引法。特征过滤法主要包括基于文档频率(DF)、互信息(MI)、信息增益(IG)、χ2量等过滤方法,即对分词后所得的所有词语计算其在整个文档集中的以上某种值,设定阈值进行过滤;特征重构法主要包括聚类法和潜在语义索引法,聚类法将对某一类别贡献相同或者相近的词语聚为一类,用该类的中心来替代该类所有词语作为特征空间中的一项;潜在语义索引法利用矩阵的奇异值分解技术来实现特征空间的降维。当前主要的中文分词工具有中科院计算机技术研究所的ICTCLAS、海量科技公司的海量智能分词系统、哈工大统计分词系统、清华大学SEGTAG系统、北大计算机语言所的分词系统等。优秀的分词工具不仅要有很高的词语切分和词性标注准确度,还要确保较好的歧义处理和未登录词识别功能。然而,对于文本分类问题,只需要用到其词语切分功能,将文本切分成一个个独立-->的词语项。因此采用分词工具进行词语切分,就限定了文本分类的特征项是最小的语义单元——词,而且候选特征集是文档集被分词后出现的所有词汇,候选词汇量非常大,影响特征抽取的效率。
技术实现思路
本专利技术的目的在于提供一种基于LZW压缩算法的中文文本分类特征词典生成方法,它无需第三方中文分词工具就能够构建文本分类特征词典,提高了特征抽取的效率。为了达到上述目的,本专利技术采用以下技术方案予以实现:一种基于LZW压缩算法的中文文本分类特征词典生成方法,其特征在于,包括以下步骤:步骤1:假设待分类的文本共有r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r,该字符串表str_tablei中每项为(str,TF),分别记录字符串str及其在第i类样本集中出现的频率TF;步骤2:将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei,即:若字符串str已存在于字符串表str_tablei中,则将字符串str的频率TF值加1,否则增加一项新的字符串str并将其频率TF值设置为1;步骤3:对字符串表str_tablei中的项按频率TF值排序,设定频率阈值minTFi,删除频率TF值小于频率阈值minTFi的项;步骤4:统计字符串表str_tablei中各项字符串str在第i类样本集中出现的文档频率DF,即第i类样本集中出现字符串str的文档数,设定第i类词典dici以及其最小文档频率阈值minDFi、最大文档频率阈值maxDFi,将-->minDFi≤DF≤maxDFi的字符串str和其文档频率DF加入到第i类词典dici中;步骤5:将各类词典dici综合成总词典D,其中每个字符串str在整个样本集中出现的文档频率DF等于其在各个类别中的文档频率DF值之和,按照总词典D中的文档频率DF对各项进行排序,并设定总词典D中的最小文档频率阈值minDF和最大文档频率阈值maxDF,删除总词典D中的文档频率DF值小于最小文档频率阈值minDF和大于最大文档频率阈值maxDF的项;步骤6:计算总词典D中各项字符串str在整个样本集的信息增益值IG,IG(W)=P(W)ΣiP(Ci|W)logP(Ci|W)P(Ci)+P(W‾)ΣiP(Ci|W‾)logP(Ci|W‾)P(Ci),]]>其中P(W)表示单词W出现的概率,单词W即为字符串str;P(Ci)为第i类值的出现概率;P(Ci|W)为单词W出现时属于第i类的条件概率;然后,对总词典D中字符串str按照其信息增益IG值从大到小进行排序,设定总词典D容量M,截取前M项,此时形成的总词典D便作为该r类文本分类的特征词典。本专利技术的进一步特点在于:所述频率阈值minTFi为字符串表str_tablei中第5~10小的频率TF值;所述第i类词典dici中的最小文档频率阈值minDFi为字符串表str_tablei中str第5~10小的文档频率DF值;所述第i类词典dici中的最大文档频率阈值maxDFi为字符串表str_tablei中第5~10大的文档频率DF值;所述总词典D中的最小文档频率阈值minDF为总词典D中第5~10小的文档频率DF值;所述总词典D中的最大文档频率阈值maxDF为总词典D中第5~10大的DF值。-->本专利技术所提出的基于LZW压缩算法的中文文本分类特征词典生成方法,能有效地适用于中文文本分类问题的特征词典构建。与采用分词工具的特征词典生成方法不同的是,该方法不是在获得了全部的独立词汇之后再进行词频统计,而是直接在文本中提取特征串并统计其词频。特征过滤在已进行初步筛选的字符串表上进行,相比于一般方法在样本集的全体词汇上进行特征过滤,减少了计算量,提高了特征抽取的效率。具体实施方式下面对本专利技术的内容作进一步详细说明。基于LZW压缩算法的中文文本分类特征词典生成方法,包括以下步骤:步骤1:假设需要将文本分为r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r,该字符串表str_tablei中每项为(str,TF),分别记录字符串str及其在第i类样本集中出现的频率TF。步骤2:将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei,即:若字符串str已存在于字符串表str_tablei中,则将字符串str的频率TF值加1,否则增加一项新的字符串str并将其频率TF值设置为1。LZW压缩算法LZWencode描述如下:    LZWencode(infile,str_table)Step1:wbuf=convert_to_widestring(infile);Step2:it=wbuf的首字符        index=0,old_index=0;Step3:while(it不是wbuf的尾字符)            wstr1=wstr;            wstr1=wstr1+it;-->old_index=index;if(wstr1已存在于str_table中)    wstr=wstr1;    index=wstr1在str_table中的位置;else    if(str_table为空)将(wstr1,1)添加到str_table;    else        str_table第old_index项的TF值加1;        if(wstr1小于str_table第index项的str)            将(wstr1,1)插入str本文档来自技高网...

【技术保护点】
一种基于LZW压缩算法的中文文本分类特征词典生成方法,其特征在于,包括以下步骤: 步骤1:假设待分类的文本共有r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_table↓[i],其中i=1,…,r,该字符串表str_table↓[i]中每项为(str,TF),分别记录字符串str及其在第i类样本集中出现的频率TF; 步骤2:将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_table↓[i],即:若字符串str已存在于字符串表str_table↓[i]中,则将字符串str的频率TF值加1,否则增加一项新的字符串str并将其频率TF值设置为1; 步骤3:对字符串表str_tablei中的项按频率TF值排序,设定频率阈值minTF↓[i],删除频率TF值小于频率阈值minTF↓[i]的项; 步骤4:统计字符串表str_table↓[i]中各项字符串str在第i类样本集中出现的文档频率DF,即第i类样本集中出现字符串str的文档数,设定第i类词典dic↓[i]以及其最小文档频率阈值minDF↓[i]、最大文档频率阈值maxDF↓[i],将minDF↓[i]≤DF≤maxDF↓[i]的字符串str和其文档频率DF加入到第i类词典dic↓[i]中; 步骤5:将各类词典dic↓[i]综合成总词典D,其中每个字符串str在整个样本集中出现的文档频率DF等于其在各个类别中的文档频率DF值之和,按照总词典D中的文档频率DF对各项进行排序,并设定总词典D中的最小文档频率阈值minDF和最大文档频率阈值maxDF,删除总词典D中的文档频率DF值小于最小文档频率阈值minDF和大于最大文档频率阈值maxDF的项; 步骤6:计算总词典D中各项字符串str在整个样本集的信息增益值IG, IG(W)=P(W)*P(C↓[i]|W)logP(C↓[i]|W)/P(C↓[i])+P(*)*P(C↓[i]|*)logP(C↓[i]|*)/P(C↓[i]), 其中P(W)表示单词W出现的概率,单词W即为字符串str;P(C↓[i])为第i类值的出现概率;P(C↓[i]|W)为单词W出现时属于第i类的条件概率;然后,对总词典D中字符串str按照其信息增益IG值从大到小进行排序,设定总词典D容量M,截取前M项,此时形成...

【技术特征摘要】
1、一种基于LZW压缩算法的中文文本分类特征词典生成方法,其特征在于,包括以下步骤:步骤1:假设待分类的文本共有r个类别,每个类别对应一个样本集,对于第i类样本集初始化一个字符串表str_tablei,其中i=1,…,r,该字符串表str_tablei中每项为(str,TF),分别记录字符串str及其在第i类样本集中出现的频率TF;步骤2:将第i类样本集中的文档输入LZW压缩算法LZWencode(infile,str_table),并产生相应的压缩编码串,作为候选特征词用来更新字符串表str_tablei,即:若字符串str已存在于字符串表str_tablei中,则将字符串str的频率TF值加1,否则增加一项新的字符串str并将其频率TF值设置为1;步骤3:对字符串表str_tablei中的项按频率TF值排序,设定频率阈值minTFi,删除频率TF值小于频率阈值minTFi的项;步骤4:统计字符串表str_tablei中各项字符串str在第i类样本集中出现的文档频率DF,即第i类样本集中出现字符串str的文档数,设定第i类词典dici以及其最小文档频率阈值minDFi、最大文档频率阈值maxDFi,将minDFi≤DF≤maxDFi的字符串str和其文档频率DF加入到第i类词典dici中;步骤5:将各类词典dici综合成总词典D,其中每个字符串str在整个样本集中出现的文档频率DF等于其在各个类别中的文档频率DF值之和,按照总词典D中的文档频率DF对各项进行排序,并设定总词典D中的最小文档频率阈值minDF和最大文档频率阈值maxDF,删除总词典D中的文档频率DF值小于最小文档频率阈值minDF和大于最...

【专利技术属性】
技术研发人员:郑庆华刘均吴朝晖蒋路常晓林鹏
申请(专利权)人:西安交通大学
类型:发明
国别省市:87[中国|西安]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1