当前位置: 首页 > 专利查询>南京大学专利>正文

一种计算机中文文本分类方法技术

技术编号:8532998 阅读:205 留言:0更新日期:2013-04-04 16:07
本发明专利技术提出了一种计算机中文文本分类方法,包括以下步骤:使用N-gram方法处理中文文本:使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量;使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;利用L1-正则化逻辑回归分类器模型为中文文本分类。本发明专利技术对现有的基于分词的中文文本分类方法进行改善和提高,能够避免分词对分类精度产生的不良影响。通过使用N-gram的形式来表达文本,可以很好地避免上述的两方面问题。同时L1-正则化逻辑回归分类器可以很好地解决N-gram带来的数据稀疏性问题,从而提高文本分类的精度。

【技术实现步骤摘要】

本专利技术涉及一种计算机文本处理领域,特别是。
技术介绍
随着当今世界信息量的急剧增加,以及计算机网络技术迅速普及和发展,大量的文档以电子的形式出现。为了更好的管理越来越多的文档,人们对计算机进行自动文本分类的需求越来越大。文本分类就是根据文本的内容,利用计算机把ー个文本分成事先给定的某个类别。对于ー个文本分类任务,首先把每ー个文本都映射到一个高维欧几里得空间,然后使用特征选择方法或特征抽取方法选出一部分对分类有用的特征。利用机器学习里的分类器,从大量的训练数据中学习出分类器模型,最后用这个分类器模型对未知类标的文本进行分类。近年来,随着机器学习技术的发展,文本分类方法取得了一系列重要的进展。而在中文文本分类中,中文分词是ー个重要的预处理步骤,因为中文文本的字与字之间不像英文单词那样有空格隔开。想要从文本中提取出特征,就必须首先对中文文本进行分词。 分词质量的优劣,直接影响到分类结果的好坏。首先,分词中产生的错误会影响分类器的性能,尤其是在网络越来越发达的今天,新鮮的词语层出不穷,这对分词的精度是ー个很大的挑战。其次,即使分词结果全部正确,分词也会带来ー些关键信息的丢失。表I表示了两个文本的分词表示,其中ー个文本来自经济类,另ー个来自计算机类。表I文本预处理的分词示例

【技术保护点】
一种计算机中文文本分类方法,其特征在于,包括以下步骤:步骤一,使用N?gram方法处理中文文本:使用N?gram的方法把中文文本的表示为一个由一组特征组成的特征向量;步骤二,使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重;步骤三,利用L1?正则化逻辑回归分类器模型为中文文本分类。

【技术特征摘要】
1.一种计算机中文文本分类方法,其特征在于,包括以下步骤 步骤一,使用N-gram方法处理中文文本使用N-gram的方法把中文文本的表示为一个由一组特征组成的特征向量; 步骤二,使用词频逆向文件频率法为特征向量中每一个特征赋予一个权重; 步骤三,利用L1-正则化逻辑回归分类器模型为中文文本分类。2.根据权利要求1中所述的方法,其特征在于,步骤一包括以下步骤 对于中文文本d = c1;c2,…cf,ck,其中Cj为中文文本d中的第j个字,j = I, 2,…k,k表示中文文本d的总字数,用N-gram的方法把中文文本d的表示为一个由一组特征组成的特征向量,表示为3.根据权利要求2所述的方法,其特征在于,步骤二包括以下步骤 根据词频逆向文件频率的计算公式计算特...

【专利技术属性】
技术研发人员:戴新宇付强陈家骏黄书剑张建兵
申请(专利权)人:南京大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1