基于向量组映射的两类文本的分类方法技术

技术编号:8934520 阅读:495 留言:0更新日期:2013-07-18 03:05
本发明专利技术公开了一种基于向量组映射的两类文本的分类方法,包括:收集文本数据集,将其划分为训练集和测试集;预处理数据集;提取总词表并统计词频;对训练样本集进行特征选取,得到特征向量表;将数据集中的所有样本特征项赋权值表示成向量;将训练样本集和测试样本集分别表示成一个向量组;将训练样本集中正、负类样本分别表示为全矩阵形式;将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量;利用最近邻算法判断测试样本的类别。本发明专利技术使用tf*rf特征提取法,用向量组表示正、负类文本,不仅能够提取自适应能力强、分类性能好的文本特征,还能全面地表示文本信息,通过向量组的映射变换,简化了分类过程,提高了分类速度。

【技术实现步骤摘要】

本专利技术属于电子信息
,具体涉及一种。
技术介绍
文本分类是指用计算机按照一定的标准对文本集自动赋予类别标记,它在信息检索、文本挖掘和情报分析等领域中具有重要应用,其中涉及文本表示、特征选择、分类模型和评价方法等关键技术。文本分类的过程如附附图说明图1所示。首先需要对文本进行预处理,并对文本进行特征向量表示;然后训练学习构造分类器;最后使用分类器对新文本进行分类。目前,比较常用的文本分类器有朴素贝叶斯(DVeBayes)、支持向量机(SVM)、K最近邻(KNN)等。其中KNN方法简单易行,而且分类效果良好,对不同数据集有良好的可操作性。最近邻方法是KNN方法的一个特例,它的基本思想是在训练样本中找到测试样本的最近邻样本,然后根据这个最近邻样本的类别决定测试样本的类别。首先,由于最近邻方法只根据距离测试样本最近邻的样本判断测试样本的类别,放大了噪声数据的干扰,会降低分类精度。其次,由于传统的最近邻方法并没有训练阶段,所有的计算都是在分类时完成的,所以这种方法的实时性不好。当训练集文档数量很大的时候,其计算开销巨大,以至于随着训练集的增长,分类过程将非常缓慢甚至无法进行。这是最近邻方法的一个主要缺点。目前主要从两个方面来减少最近邻方法的计算开销:一是减少训练集的规模,清除噪声数据;二是改进最近邻的相似度计算和搜索算法,减少相似度计算的复杂度,由全局搜索改为局部搜索。现有的算法虽然能够有效降低最近邻搜索的计算开销,但是它们大部分无法保证进行全局的最优搜索,不能适用于海量数据和高维空间。
技术实现思路
针对上述基于最近邻文本分类过程中存在的抗噪声数据干扰能力弱、分类时计算开销大的缺陷,本专利技术提出了一种根据全局正、负类样本的特征信息判断测试样本的类别,从而降低分类时对个别样本的依赖度以及分类时间的两类文本分类方法。本专利技术的基本原理:对每一个文本提取特征,将一个文本表示为一个特征向量的形式,进而将一类文本表示成向量组的形式。然后,由映射变换将每个类别的向量组映射为相应的类别向量,通过计算两个向量间的欧式距离判断距离测试样本最近的是正类列向量还是负类列向量,并根据距离测试样本最近的列向量类别判断这个测试样本的类别。一种,其特征在于包括以下步骤:步骤一,收集数据集,将收集的数据集分为训练样本集和测试样本集。步骤二,预处理数据集,方法如下:将无结构化的数据处理为结构化数据,得到建立模型或应用模型进行分类的、包含各个文本属性等字段信息的原始数据样本;对已结构化的数据样本进行分词,完成单词字符小写化、去停用词、删除标点符号以及词根还原的初步处理,统计每个测试样本以及训练样本的词频。步骤三,对训练样本集,提取出总词表,方法如下:对于总词表中的每一个词项,统计包含该词项的正类样本个数以及负类样本个数,过滤掉训练样本集中所有正、负类文档频率小于3的词项,得到文档频率表。步骤四,对训练样本集进行特征选取,得到特征向量表。具体方法如下:对于步骤三得到的总词表中的每一个词项,计算词项t对于文本类别Ci的X2统计值x2(t,Ci)。X2统计值越高,它与该类之间的相关性越大,携带的类别信息也较多,计算公式如下:权利要求1.一种,其特征在于包括以下步骤: 步骤一,收集数据集,将收集的数据集分为训练样本集和测试样本集; 步骤二,预处理数据集,方法如下: 将无结构化的数据处理为结构化数据,得到建立模型或应用模型进行分类的、包含各个文本属性等字段信息的原始数据样本;对已结构化的数据样本进行分词,完成单词字符小写化、去停用词、删除标点符号以及词根还原的初步处理,统计每个测试样本以及训练样本的词频; 步骤三,对训练样本集,提取出总词表,方法如下: 对于总词表中的每一个词项,统计包含该词项的正类样本个数以及负类样本个数,过滤掉训练样本集中所有正、负类文档频率小于3的词项,得到文档频率表; 步骤四,对训练样本集进行特征选取,得到特征向量表;方法如下: 对于步骤三得到的总词表中的每一个词项,计算词项t对于文本类别Ci的X2统计值x2(t, Ci) ; X2统计值越高,它与该类之间的相关性越大,携带的类别信息也较多,计算公式如下:全文摘要本专利技术公开了一种,包括收集文本数据集,将其划分为训练集和测试集;预处理数据集;提取总词表并统计词频;对训练样本集进行特征选取,得到特征向量表;将数据集中的所有样本特征项赋权值表示成向量;将训练样本集和测试样本集分别表示成一个向量组;将训练样本集中正、负类样本分别表示为全矩阵形式;将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量;利用最近邻算法判断测试样本的类别。本专利技术使用tf*rf特征提取法,用向量组表示正、负类文本,不仅能够提取自适应能力强、分类性能好的文本特征,还能全面地表示文本信息,通过向量组的映射变换,简化了分类过程,提高了分类速度。文档编号G06F17/30GK103207893SQ20131008045公开日2013年7月17日 申请日期2013年3月13日 优先权日2013年3月13日专利技术者李玉鑑, 王影 申请人:北京工业大学本文档来自技高网...

【技术保护点】
一种基于向量组映射的两类文本的分类方法,其特征在于包括以下步骤:步骤一,收集数据集,将收集的数据集分为训练样本集和测试样本集;步骤二,预处理数据集,方法如下:将无结构化的数据处理为结构化数据,得到建立模型或应用模型进行分类的、包含各个文本属性等字段信息的原始数据样本;对已结构化的数据样本进行分词,完成单词字符小写化、去停用词、删除标点符号以及词根还原的初步处理,统计每个测试样本以及训练样本的词频;步骤三,对训练样本集,提取出总词表,方法如下:对于总词表中的每一个词项,统计包含该词项的正类样本个数以及负类样本个数,过滤掉训练样本集中所有正、负类文档频率小于3的词项,得到文档频率表;步骤四,对训练样本集进行特征选取,得到特征向量表;方法如下:对于步骤三得到的总词表中的每一个词项,计算词项t对于文本类别ci的χ2统计值χ2(t,ci);χ2统计值越高,它与该类之间的相关性越大,携带的类别信息也较多,计算公式如下:χ2(t,ci)=N×(AD-CB)2(A+C)×(B+D)×(A+B)×(C+D)其中,N表示训练样本集中的文本总数,A表示属于ci类且包含t的文档频数,B表示不属于ci类但是包含t的文档频数,C表示属于ci类但是不包含t的文档频数,D是既不属于ci也不包含t的文档频数;步骤五,为数据集中所有样本的特征项赋权值,得到每个样本的向量表示,方法如下:采用词频相关频率积(tf.rf)的赋权值方法,其中tf是词频(term?frequency),rf是相关频率(relevance?frequency);对于词项tk,令文本d关于tk的权值为ωk,产生文本d的向量表示d=(ω1,ω2,...,ωn);根据tf.rf按下式计算权值ωk:ωk=tfk*rfk其中,tfk表示词项tk在文档d中的频率,已由步骤二得到,rfk值的计算方法如下:rfk=log2(2+akmax(1,ck))其中,ak表示在训练文档集中包含词项tk的正类文本数,bk表示不包含词项tk的正类文本数,ck表示包含词项tk的负类文本数,dk表示不包含词项tk的负类文本数;步骤六,将训练样本集表示成一个向量组,将测试样本集表示成另一个向量组;步骤七,对步骤五得到的训练样本向量组分类,根据正负类的标记分为两组,并将所有正类文本和负类文本的向量组分别表示为一个全矩阵的形式,即得到正类文本和负类文本的矩阵表示形式;步骤八,将训练样本中的正类文本矩阵和负类文本矩阵分别映射为一个向量,方法如下:(1)对两个矩阵分别进行奇异值分解(SVD),例如,对于矩阵M进行奇异值分解时,可将M分解为三个矩阵乘积的形式,表示如下:M=U*S*V其中,若M为m*n,则U为m*m,V为n*n,S为m*n;奇异值在S的对角线上,非负且按降序排列;(2)对于正类文本矩阵和负类文本矩阵分别进行奇异值分解后,将分解后的最左矩阵U的上三角矩阵元素按行排成一个列向量,这两个列向量就是所需的映射后的列向量,称为正类列向量和负类列向量;步骤九,对每一个测试样本,利用最近邻算法判断其类别,即通过计算两个向量间的欧式距离来判断距离测试样本最近的是正类列向量还是负类列向量,根据距离测试样本最近的列向量类别判断这个测试样本的类别。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李玉鑑王影
申请(专利权)人:北京工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1