文档分类、支持向量机模型生成的方法和装置制造方法及图纸

技术编号：8719580 阅读：251 留言：0更新日期：2013-05-17 20:56

本发明专利技术公开了一种文档分类、支持向量机模型生成的方法和装置，所述方法包括：根据待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型，确定该待分类文档所属类别，其中，训练集的类别扁平化处理过程包括：针对训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除。由于根据类别之间的层级关系先对训练集进行类别扁平化处理，从而使得得到的支持向量机模型可适用于对多层级类别的文档进行分类，使得分类结果具有较好的精确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机处理技术，尤其涉及文档分类、支持向量机模型生成的方法和>J-U装直。
技术介绍
近年来，随着互联网Internet的快速发展，使得Web (网络)上的文档资源呈现爆炸式的增长，这些文档信息数据量大，内容繁杂。与数据库中结构化的信息相比，非结构化或半结构化的web文档信息更加丰富和繁杂。为了充分有效地利用这些文档资源，是用户能够快速有效的找到需要的信息，并且提取其中潜在的有价值的信息，则需要对这些文档进行分类。目前，对文档进行自动分类的方法通常采用基于支持向量机模型的方法进行分类；该方法包括:训练阶段和分类阶段。目前，现有技术中有多种基于支持向量机模型的文档自动分类方法，下面较为详细的介绍了一种。训练阶段得到支持向量机模型的方法为:根据训练集中划分了类别的文档，得到类别特征向量；根据类别特征向量集，可以得到支持向量机模型以及有效词语集(或称词典)；为便于描述，本文中将训练集中的样本称为训练样本。其中，根据训练集中划分了类别的训练样本，得到类别特征向量的一种具体方法，流程如附图说明图1所示，包括如下步骤:SlOl:对训练集中的每个训练样本进行分词，得到每个训练样本的词语集合，删除其中的停用词。训练集中收集了各种已经划分了类别的文档，通常，训练集采用人工分类的语料库。为了保证训练阶段得到的支持向量机模型的稳定性和收敛性，通常训练集中的文档数量要大于一定数值。文档(训练样本)由一串连续的字序列组成，词语是文档中的基本单位；分词就是将文档中连续的字序列划分为一个个词语的过程，划分出的词语构成该文档的词语集合。S102:针对每个类别，统计...

【技术保护点】
一种文档分类方法，其特征在于，包括：对待分类文档进行分词后，确定该待分类文档的特征向量；根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型，确定该待分类文档所属类别，其中，所述训练集的类别扁平化处理过程，包括：针对所述训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类别，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除。

【技术特征摘要】
1.一种文档分类方法，其特征在于，包括: 对待分类文档进行分词后，确定该待分类文档的特征向量；根据该待分类文档的特征向量、以及根据经过类别扁平化处理的训练集生成的支持向量机模型，确定该待分类文档所属类别，其中，所述训练集的类别扁平化处理过程，包括:针对所述训练集中的每个训练样本，对该训练样本预先设置的所属类别，按类别的层级高低进行排序；针对该训练样本所属的每个类另IJ，从层级较高的类别开始，判断该训练样本所属类别中是否有该类别的子类类别；若有，则将该类别从该训练样本所属类别中剔除。2.如权利要求1所述的方法，其特征在于，所述类别被分配了唯一的标识，以及所述类别的标识中包含了该类别的层级路径信息。3.如权利要求2所述的方法，其特征在于，最高层级以下的类别的标识由其父类类别的标识和该类别的子类识别码组成；其中，所述子类识别码是针对属于同一父类的一组子类，为组内每个子类分配的唯一的识别码。4.如权利要求1-3任一所述的方法，其特征在于，所述支持向量机模型是根据训练集生成的具体包括: 根据所述训练集构建类别词语矩阵；根据所述类别词语矩阵生成各类别的特征向量，根据各类别的特征向量构建所述支持向量机模型；以及所述根据该待分类文档的特征向量以及支持向量机模型，确定该待分类文档所属类别具体包括:` 计算该待分类文档的特征向量与所述支持向量机模型中分别对应各类别的超平面之间的距离；根据计算的距离确定该待分类文档所属类别。5.一种支持向量机模型生成方法，其特征在于，包括: 对训练集进行类别扁平化处理:针对所述训练集中的每个训练样本，对该...

【专利技术属性】
技术研发人员：戴明洋，
申请(专利权)人：新浪网技术中国有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人