一种基于PCA组合特征提取和近似支持向量机的分类方法技术

技术编号:33777415 阅读:14 留言:0更新日期:2022-06-12 14:31
本发明专利技术涉及计算机科学技术领域,公开的一种基于PCA组合特征提取和近似支持向量机的分类方法,是搜集预料信息,从训练集合中提取出词表,从训练集合中提取总词表,建立词语特征文档矩阵A,求协方差矩阵,PCA将特征向量降维,特征词提取,重新对剩下的T个特征词重新求权重,得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试,将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。本发明专利技术通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。能够获得更好的文本分类准确率和更快的执行效率,可以较快速准确的完成文本分类,具有一定的实用意义。的实用意义。的实用意义。

【技术实现步骤摘要】
一种基于PCA组合特征提取和近似支持向量机的分类方法


[0001]本专利技术涉及计算机科学
,特别是一种基于PCA组合特征提取和近似支持向量机的分类方法。

技术介绍

[0002]在知识管理中的知识获取、存储和检索及共享等关键处理过程中都需要使用到分词和文本分类技术。中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。面向知识管理的中文分词主要考察其是否有助于提高知识文本信息检索的准确度。难点主要表现在对新词的识别和歧义的解决,这对行业知识新词的识别尤为重要。传统的字典匹配分词其分词性能受限于词典的完备性,从而无法适应现实日益发展的领域知识管理需求。
[0003]分类时,通常用向量空间模型表示文本,即以一组词条作为属性向量构成的特征向量空间,传统的支持向量机算法在时间复杂度和空间复杂度上都有一定瓶颈。文本的原始特征向量空间包含全部的词条属性,具有高维性、稀疏性的特点,但并不是所有属性对分类决策都有贡献,冗余的属性不但对决策的结果无任何贡献,反而会降低决策的执行效率。
[0004]目前,文本特征提取主要是在特征文档矩阵的基础上采用某种特征评估函数对每个特征词进行评估,通过设定阈值保留一定数量的特征来完成。现有的特征选择函数主要有文档频率DF、互信息MI和χ2统计CHI等。但这些特征提取方法都是在假设特征项之间是独立的前提下进行的,并且每种方法关注的重点不同。DF强调高频词汇对文本分类的影响,其本体构建的成熟程度,关联度计算式中的参数选取以及阈值的设定都会对本体关联词集合的构建造成影响,进而影响到文本分类的准确率;MI的特征选择倾向于罕见词对文本分类的影响,但对于低维数据的处理却不尽如人意;CHI是假设词条与类别之间符合χ2分布,χ2统计量的值越高,词条和文本类别之间的相关性越强,对文本类别的贡献越大,这些应用前提假设势必会造成部分信息的丢失,影响后面文本分类的结果。

技术实现思路

[0005]为了避免信息的丢失,获得更好的分类准确率和更快的执行效率,本专利技术的目的在于提出一种基于PCA组合特征提取和近似支持向量机的分类方法。
[0006]为实现上述专利技术目的,本专利技术采用如下方法,
[0007]一种基于PCA组合特征提取和近似支持向量机的分类方法,其步骤如下:
[0008]步骤1搜集预料信息,对训练集合进行分类及预料选择处理,包括训练集合、测试集合;
[0009]步骤2从训练集合中提取出词表,对训练集合进行类别划分,对正文文本进行分词处理,获取文档的词语串序列,提取出词表;
[0010]步骤3从训练集合中取出每个文档,取出其中的词语,形成总词表;
[0011]步骤4选取文档特征,建立一个词语特征文档矩阵A;
[0012]将语料库分为训练集合和测试集合,当训练集合的文档数为N篇,设为x1,x2,


x
N
,选取n个关键词a1,a2,

,a
n
作为文档特征,则建立一个词语特征文档矩阵A:
[0013][0014]其中:矩阵的一行代表一个文档的特征向量,矩阵的一列代表一个关键词在文档中出现的频率;
[0015]步骤5求协方差矩阵R
A
=A
T
A的特征向量e1,e2,

,e
n
;即求协方差矩阵R
A
=A
T
A(n
×
n维)的特征值λ1≥λ2≥

≥λ
n
≥0以及相对应的特征向量e1,e2,

,e
n

[0016]选择R
A
的m个最大特征值对应的正交特征向量e1,e2,

,e
m
,组成最佳转换矩阵W
KL
=[e1,e2,

,em]T
,W
KL
为m
×
n维矩阵;
[0017]步骤6利用PCA将其特征向量降维,得到最佳转换矩阵W
KL
;选择PCA转换后的正交空间的维度m(m≤n),式中T为阈值,选择0.85,通过加大阈值T保留更多的原始信息,获得更高的文本分类准确率,需更长的计算时间;
[0018]步骤7将n维原始词语文档空间转换为m维正交特征空间,是利用转换矩阵W
KL
将n维原始词语—文档空间转换为m维正交特征空间,Y=(WA
T
)
T
=AW
T
,Y是n
×
m维矩阵,矩阵Y维数更低m≤n;取矩阵A的稀疏性,m<<<n,且Y是正交矩阵,能保留较多的特征信息;
[0019]步骤8特征词提取,分别使用MI、TF

IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组;
[0020]步骤9使用改进的TF

IDF方法重新对剩下的T个特征词重新求权重,以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵N
×
T矩阵;
[0021]步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N
×
T矩阵);
[0022]步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试;
[0023]步骤12将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。
[0024]由于采用如上所述的技术方案,本专利技术具有如下优越性:
[0025]本专利技术一种基于PCA组合特征取值和近似支持向量机的分类方法,通过对文档频率DF、互信息MI和χ2统计CHI算法的研究,利用其各自的优势互补,提出一种基于主成分分析(PCA)的多重组合特征提取算法,并通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。本专利技术能够获得更好的文本分类准确率和更快的执行效率,可以应用于文本管理中的本文分类,可以较快速准确的完成文本分类,具有一定的实用意义。
附图说明
[0026]图1是基于PCA组合特征提取和近似支持向量机分类方法的流程图。
[0027]具体实施方法
[0028]下面结合附图及具体实施对本专利技术进一步的描述。
[0029]如图1所示,一种基于PCA组合特征取值和近似支持向量机的分类方法,是通过对文档频率DF、互信息(MI)和χ2统计CHI算法的综合使用,引入基于主成分分析PCA的多重组合特征提取算法,并通过近似支持向量机将分类问题归结成仅含线性等式约束的二次规划问题,有效降低了时间复杂度和空间复杂度。其步骤如下:
[0030]1)收集预料。对训练集合进行分类与预处理;
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:其步骤如下:步骤1搜集预料信息,对训练集合进行分类及预料选择处理,包括训练集合、测试集合;步骤2从训练集合中提取出词表,对训练集合进行类别划分,对正文文本进行分词处理,获取文档的词语串序列,提取出词表;步骤3从训练集合中取出每个文档,取出其中的词语,形成总词表;步骤4选取文档特征,建立一个词语特征文档矩阵A;将语料库分为训练集合和测试集合,当训练集合的文档数为N篇,设为x1,x2,

,x
N
,选取n个关键词a1,a2,

,a
n
作为文档特征,则建立一个词语特征文档矩阵A:其中:矩阵的一行代表一个文档的特征向量,矩阵的一列代表一个关键词在文档中出现的频率;步骤5求协方差矩阵R
A
=A
T
A的特征向量e1,e2,

,e
n
;即求协方差矩阵R
A
=A
T
A(n
×
n维)的特征值λ1≥λ2≥

≥λ
n
≥0以及相对应的特征向量e1,e2,

,e
n
;选择R
A
的m个最大特征值对应的正交特征向量e1,e2,

,e
m
,组成最佳转换矩阵W
KL
=[e1,e2,

,em]
T
,W
KL
为m
×
n维矩阵;步骤6利用PCA将其特征向量降维,得到最佳转换矩阵W
KL
;选择PCA转换后的正交空间的维度m(m≤n),式中T为阈值,选择0.85,通过加大阈值T保留更多的原始信息,获得更高的文本分类准确率,需更长的计算时间;步骤7将n维原始词语文档空间转换为m维正交特征空间,是利用转换矩阵W
KL
将n维原始词语—文档空间转换为m维正交特征空间,Y=(WA
T
)
T
=AW
T
,Y是n
×
m维矩阵,矩阵Y维数更低m≤n;取矩阵A的稀疏性,m<<<n,且Y是正交矩阵,能保留较多的特征信息;步骤8特征词提取,分别使用MI、TF

IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组;步骤9使用改进的TF

IDF方法重新对剩下的T个特征词重新求权重,以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵N
×
T矩阵;步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N
×
T矩阵);步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试;步骤12将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。2.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述预料选择为需要足够的语料作为训练集合,将类别进行分类,使预料类别的划分合理、均衡。3.根据权利...

【专利技术属性】
技术研发人员:吴桐熊杰葛启东林欢钱苏敏江良剑杨昱
申请(专利权)人:中国人民解放军六三八九三部队
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1