文档分类、支持向量机模型生成的方法和装置制造方法及图纸

技术编号:8719580 阅读:251 留言:0更新日期:2013-05-17 20:56
本发明专利技术公开了一种文档分类、支持向量机模型生成的方法和装置,所述方法包括:根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,训练集的类别扁平化处理过程包括:针对训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理,从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类,使得分类结果具有较好的精确性。

【技术实现步骤摘要】

本专利技术涉及计算机处理技术,尤其涉及文档分类、支持向量机模型生成的方法和>J-U装直。
技术介绍
近年来,随着互联网Internet的快速发展,使得Web (网络)上的文档资源呈现爆炸式的增长,这些文档信息数据量大,内容繁杂。与数据库中结构化的信息相比,非结构化或半结构化的web文档信息更加丰富和繁杂。为了充分有效地利用这些文档资源,是用户能够快速有效的找到需要的 信息,并且提取其中潜在的有价值的信息,则需要对这些文档进行分类。目前,对文档进行自动分类的方法通常采用基于支持向量机模型的方法进行分类;该方法包括:训练阶段和分类阶段。目前,现有技术中有多种基于支持向量机模型的文档自动分类方法,下面较为详细的介绍了一种。训练阶段得到支持向量机模型的方法为:根据训练集中划分了类别的文档,得到类别特征向量;根据类别特征向量集,可以得到支持向量机模型以及有效词语集(或称词典);为便于描述,本文中将训练集中的样本称为训练样本。其中,根据训练集中划分了类别的训练样本,得到类别特征向量的一种具体方法,流程如附图说明图1所示,包括如下步骤:SlOl:对训练集中的每个训练样本进行分词,得到每个训练样本的词语集合,删除其中的停用词。训练集中收集了各种已经划分了类别的文档,通常,训练集采用人工分类的语料库。为了保证训练阶段得到的支持向量机模型的稳定性和收敛性,通常训练集中的文档数量要大于一定数值。文档(训练样本)由一串连续的字序列组成,词语是文档中的基本单位;分词就是将文档中连续的字序列划分为一个个词语的过程,划分出的词语构成该文档的词语集合。S102:针对每个类别,统计该类别的训练样本的词语集合中,各词语出现的频次。例如,训练集中的训练样本共有q个类别,分别记为:C1、c2......Cq ;其中,q为大于2的自然数;训练集中所有的训练样本的词语集合中共有n个词语,分别记为t2……tn;其中,n为大于2的自然数;针对其中第i个类别,统计出第i个类别的训练样本的词语集合中第j个词语出现的频次(次数),记为HlijtjS103:构建类别词语矩阵。根据统计出的每个类别中各词语出现的频次,得到每个类别的词语频次向量;例如,第i个类别的词语频次向量c, = {mn,mn, ,min)。构建的qXn的类别词语矩阵Q,,。亦即类别词语矩阵Cqxn为:本文档来自技高网...

【技术保护点】
一种文档分类方法,其特征在于,包括:对待分类文档进行分词后,确定该待分类文档的特征向量;根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中,所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类别,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。

【技术特征摘要】
1.一种文档分类方法,其特征在于,包括: 对待分类文档进行分词后,确定该待分类文档的特征向量; 根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型,确定该待分类文档所属类别,其中, 所述训练集的类别扁平化处理过程,包括:针对所述训练集中的每个训练样本,对该训练样本预先设置的所属类别,按类别的层级高低进行排序;针对该训练样本所属的每个类另IJ,从层级较高的类别开始,判断该训练样本所属类别中是否有该类别的子类类别;若有,则将该类别从该训练样本所属类别中剔除。2.如权利要求1所述的方法,其特征在于,所述类别被分配了唯一的标识,以及所述类别的标识中包含了该类别的层级路径信息。3.如权利要求2所述的方法,其特征在于,最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成;其中,所述子类识别码是针对属于同一父类的一组子类,为组内每个子类分配的唯一的识别码。4.如权利要求1-3任一所述的方法,其特征在于,所述支持向量机模型是根据训练集生成的具体包括: 根据所述训练集构建类别词语矩阵; 根据所述类别词语矩阵生成各类别的特征向量,根据各类别的特征向量构建所述支持向量机模型;以及 所述根据该待分类文档的特征向量以及支持向量机模型,确定该待分类文档所属类别具体包括:` 计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离; 根据计算的距离确定该待分类文档所属类别。5.一种支持向量机模型生成方法,其特征在于,包括: 对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本,对该...

【专利技术属性】
技术研发人员:戴明洋
申请(专利权)人:新浪网技术中国有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1