基于Base64编码的中文文本分类方法技术

技术编号：6032312 阅读：273 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种基于Base64编码的中文文本预处理方法。其步骤如下：1）使用Base64编码预处理中文文本，将文本转化为字符串文本；2）使用4-gram对转换后的字符串文本分词，提取文本特征项；3）利用IG筛选文本特征项，生成特征空间；4）统计文本特征项的词频，使用词频表示特征项的权重，将中文文本表示成特征向量；5）利用LIBLINEAR工具箱训练SVM分类器，得到SVM分类模型，对中文文本进行分类，判断文本所属的类别。本发明专利技术使用Base64编码中文文本、4-gram提取文本特征项，解决了中文文本分类在进行中文分词时引起的耗时、分词准确率不高的问题；同时，使用IG进行特征选择，采用词频表示文本特征可以有效提高中文文本分类的准确率和效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文信息处理，尤其涉及一种。
技术介绍
随着信息技术的不断发展，特别是互联网技术的不断普及和完善，互联网上各种信息不断涌现，如何高效的组织、管理这些资源，同时快速、准确地定位有用信息成为信息时代一个重要而迫切的任务。中文是世界上使用人数最多的语言，也是联合国指定的国际官方用语之一。随着互联网的发展及中国经济的迅速发展，中文信息在世界范围内的流动越来越广泛，因此对大规模中文文本进行研究对我国经济发展、促进国际文化交流具有很大的现实意义。传统中文文本分类方法产生特征项的常用方法为在去除一些无用的文本页面标记后，采用中文分词器对文本分词，得到一系列的中文字、词，然后构建N-gram特征。这种方法存在分词时速度较慢，分词准确率并不高的问题，往往会影响最终的分类性能。特别的，基于中文词串的N-gram特征需要在分词结束后才能得到N-gram特征项，这不仅速度较慢，而且还会引入数据集的特征空间维数过高的问题。本专利技术提出一个无需中文分词的、使用Base64编码预处理文本的中文文本分类方法，通过4-gram切分预处理后的中文文本，生成以单...

【技术保护点】
一种基于Ｂａｓｅ６４编码的中文文本分类方法，其特征在于它的步骤如下：１）利用Ｂａｓｅ６４编码中文文本，将中文文本转化为由英文字母和数字组成的字符串文本；２）使用４－ｇｒａｍ切分编码后的字符串文本，生成４－ｇｒａｍ特征项；３）统计字符串文本中４－ｇｒａｍ特征项的频率信息，根据ＩＧ的重要程度选择４－ｇｒａｍ特征项，生成特征空间；４）统计４－ｇｒａｍ特征项的词频，根据步骤３）中生成的特征空间，使用词频权重表示特征，将中文文本表示成特征向量，重复步骤１）～步骤４）得到特征向量集；５）输入特征向量集，利用ＬＩＢＬＩＮＥＡＲ工具箱训练ＳＶＭ分类器，对中文文本进行分类，判断文本所属的类别。

【技术特征摘要】

【专利技术属性】
技术研发人员：徐从富，陈雅芳，张志华，
申请(专利权)人：浙江大学，
类型：发明
国别省市：86

全部详细技术资料下载我是这个专利的主人