【技术实现步骤摘要】
本专利技术涉及中文信息处理,尤其涉及一种。
技术介绍
随着信息技术的不断发展,特别是互联网技术的不断普及和完善,互联网上各种 信息不断涌现,如何高效的组织、管理这些资源,同时快速、准确地定位有用信息成为信息 时代一个重要而迫切的任务。中文是世界上使用人数最多的语言,也是联合国指定的国际 官方用语之一。随着互联网的发展及中国经济的迅速发展,中文信息在世界范围内的流动 越来越广泛,因此对大规模中文文本进行研究对我国经济发展、促进国际文化交流具有很 大的现实意义。传统中文文本分类方法产生特征项的常用方法为在去除一些无用的文本页面 标记后,采用中文分词器对文本分词,得到一系列的中文字、词,然后构建N-gram特征。这 种方法存在分词时速度较慢,分词准确率并不高的问题,往往会影响最终的分类性能。特别 的,基于中文词串的N-gram特征需要在分词结束后才能得到N-gram特征项,这不仅速度较 慢,而且还会引入数据集的特征空间维数过高的问题。本专利技术提出一个无需中文分词的、使用Base64编码预处理文本的中文文本分类 方法,通过4-gram切分预处理后的中文文本,生成以单 ...
【技术保护点】
一种基于Base64编码的中文文本分类方法,其特征在于它的步骤如下:1)利用Base64编码中文文本,将中文文本转化为由英文字母和数字组成的字符串文本;2)使用4-gram切分编码后的字符串文本,生成4-gram特征项;3)统计字符串文本中4-gram特征项的频率信息,根据IG的重要程度选择4-gram特征项,生成特征空间;4)统计4-gram特征项的词频,根据步骤3)中生成的特征空间,使用词频权重表示特征,将中文文本表示成特征向量,重复步骤1)~步骤4)得到特征向量集;5)输入特征向量集,利用LIBLINEAR工具箱训练SVM分类器,对中文文本进行分类,判断文本所属的类别。
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。