【技术实现步骤摘要】
一种基于PCA组合特征提取和近似支持向量机的分类方法
[0001]本专利技术涉及计算机科学
,特别是一种基于PCA组合特征提取和近似支持向量机的分类方法。
技术介绍
[0002]在知识管理中的知识获取、存储和检索及共享等关键处理过程中都需要使用到分词和文本分类技术。中文分词是机器翻译、分类、主题词提取以及信息检索的重要基础。面向知识管理的中文分词主要考察其是否有助于提高知识文本信息检索的准确度。难点主要表现在对新词的识别和歧义的解决,这对行业知识新词的识别尤为重要。传统的字典匹配分词其分词性能受限于词典的完备性,从而无法适应现实日益发展的领域知识管理需求。
[0003]分类时,通常用向量空间模型表示文本,即以一组词条作为属性向量构成的特征向量空间,传统的支持向量机算法在时间复杂度和空间复杂度上都有一定瓶颈。文本的原始特征向量空间包含全部的词条属性,具有高维性、稀疏性的特点,但并不是所有属性对分类决策都有贡献,冗余的属性不但对决策的结果无任何贡献,反而会降低决策的执行效率。
[0004]目前,文本特征提取主要是在特征文档矩阵的基础上采用某种特征评估函数对每个特征词进行评估,通过设定阈值保留一定数量的特征来完成。现有的特征选择函数主要有文档频率DF、互信息MI和χ2统计CHI等。但这些特征提取方法都是在假设特征项之间是独立的前提下进行的,并且每种方法关注的重点不同。DF强调高频词汇对文本分类的影响,其本体构建的成熟程度,关联度计算式中的参数选取以及阈值的设定都会对本体关联词集合的构建造成影响,进而影 ...
【技术保护点】
【技术特征摘要】
1.一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:其步骤如下:步骤1搜集预料信息,对训练集合进行分类及预料选择处理,包括训练集合、测试集合;步骤2从训练集合中提取出词表,对训练集合进行类别划分,对正文文本进行分词处理,获取文档的词语串序列,提取出词表;步骤3从训练集合中取出每个文档,取出其中的词语,形成总词表;步骤4选取文档特征,建立一个词语特征文档矩阵A;将语料库分为训练集合和测试集合,当训练集合的文档数为N篇,设为x1,x2,
…
,x
N
,选取n个关键词a1,a2,
…
,a
n
作为文档特征,则建立一个词语特征文档矩阵A:其中:矩阵的一行代表一个文档的特征向量,矩阵的一列代表一个关键词在文档中出现的频率;步骤5求协方差矩阵R
A
=A
T
A的特征向量e1,e2,
…
,e
n
;即求协方差矩阵R
A
=A
T
A(n
×
n维)的特征值λ1≥λ2≥
…
≥λ
n
≥0以及相对应的特征向量e1,e2,
…
,e
n
;选择R
A
的m个最大特征值对应的正交特征向量e1,e2,
…
,e
m
,组成最佳转换矩阵W
KL
=[e1,e2,
…
,em]
T
,W
KL
为m
×
n维矩阵;步骤6利用PCA将其特征向量降维,得到最佳转换矩阵W
KL
;选择PCA转换后的正交空间的维度m(m≤n),式中T为阈值,选择0.85,通过加大阈值T保留更多的原始信息,获得更高的文本分类准确率,需更长的计算时间;步骤7将n维原始词语文档空间转换为m维正交特征空间,是利用转换矩阵W
KL
将n维原始词语—文档空间转换为m维正交特征空间,Y=(WA
T
)
T
=AW
T
,Y是n
×
m维矩阵,矩阵Y维数更低m≤n;取矩阵A的稀疏性,m<<<n,且Y是正交矩阵,能保留较多的特征信息;步骤8特征词提取,分别使用MI、TF
‑
IDF、CHI、IG方法计算降维后正交矩阵Y中各词的权重;将各方法计算出来的权重词按权重的大小排序成一数组,得到四个数组;步骤9使用改进的TF
‑
IDF方法重新对剩下的T个特征词重新求权重,以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵N
×
T矩阵;步骤10以此权重值作为此特征词的最终权重组成的训练样本的词语特征—文档矩阵(N
×
T矩阵);步骤11将由上述组合特征提取算法得到的特征项及相应数据送入一种近似支持向量机分类模型进行分类训练与测试;步骤12将生成新的文本向量输入到文本分类模块中进行分类,得到最终分类结果。2.根据权利要求1所述的一种基于PCA组合特征提取和近似支持向量机的分类方法,其特征是:所述预料选择为需要足够的语料作为训练集合,将类别进行分类,使预料类别的划分合理、均衡。3.根据权利...
【专利技术属性】
技术研发人员:吴桐,熊杰,葛启东,林欢,钱苏敏,江良剑,杨昱,
申请(专利权)人:中国人民解放军六三八九三部队,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。