基于信息概念格矫正的SVM文本自动分类方法及其系统技术方案

技术编号:8682874 阅读:197 留言:0更新日期:2013-05-09 02:48
本发明专利技术公开了一种基于信息概念格矫正的SVM文本自动分类方法及其系统,其包括信息概念格的建立、信息概念格中节点权重的计算、和信息概念格结合SVM预测文本类别。本发明专利技术实现树状类别的分类,并且在很大程度上减少了计算量。另外,基于信息概念格的矫正大大提高了方法的精度。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,特别是涉及一种基于信息概念格矫正的SVM文本自动分类方法及其系统
技术介绍
经典的支持向量机(SVM)算法只给出了二类分类的算法,而在数据挖掘的实际应用中,一般要解决以下两个问题:1、树状多层次类别的分类首先,针对这个问题现有技术是通过多个二类支持向量机的组合来解决,主要有一对多组合模式、一对一组合模式和SVM决策树,再就是通过构造多个分类器的组合来解决。而这几种解决方法最终解决是单层多个类别之间的文本分类,并没有解决实际应用中树状多层次类别的分类问题及其分类精度。其次,由于SVM是借助二次规划来求解支持向量,而求解二次规划将涉及m阶矩阵的计算(m为样本的个数),当m数目很大时该矩阵的存储和计算将耗费大量的机器内存和运算时间。2、分类精度现有技术虽结合了其他算法的优势,解决多类问题的分类精度。如:与粗集理论结合,形成一种优势互补的多类问题的组合分类器。但是对于树状类别的细化和深入,类别与类别之间的距离越来越近,不仅计 算量大量增加而且分类精度也越来越低。
技术实现思路
本专利技术所要解决的技术问题是提供一种基于信息概念格矫正的SVM文本自动分类方法,其基于信息概念格矫正可以对文本进行全方面的挖掘和分析,如对新闻全方面的挖掘和分析可以提高广告投放和新闻搜索的精度。为解决上述技术问题,本专利技术米用的一技术方案是:一种基于信息概念格矫正的SVM文本自动分类方法,其包括以下具体步骤:第一步:信息概念格的建立,其用可扩展标记语言存储数据,并由多个Category节点和多个指针节点两部分组成,其中指针的类型至少包括:局部与整体关系、类属关系、制造关系、人物关系、地理关系、白名单、黑名单;第二步:信息概念格中Category节点和指针节点的计算;第三步:信息概念格结合SVM预测文本类别,根据Category节点与指针节点的关系及指针节点相对于Category节点的权重值预测文本类别,如信息概念格无法预测类别时则用SVM模型预测类别。在上述技术方案的基础上,进一步包括附属技术方案:所述第二步中对于某个类别的所有特征词先采用开方检验方法,其计算公式是:本文档来自技高网...

【技术保护点】
一种基于信息概念格矫正的SVM文本自动分类方法,其特征在于其包括以下步骤:第一步:信息概念格的建立,其用可扩展标记语言存储数据,并由多个Category节点和多个指针节点两部分组成,其中指针节点的类型至少包括:局部与整体关系、类属关系、制造关系、人物关系、地理关系、白名单、黑名单;第二步:信息概念格中Category节点和指针节点权重的计算;第三步:信息概念格结合SVM预测文本类别,根据Category节点与指针节点的关系及指针节点相对于Category节点的权重值预测文本类别,如信息概念格无法预测类别时则用SVM模型预测类别。

【技术特征摘要】
1.一种基于信息概念格矫正的SVM文本自动分类方法,其特征在于其包括以下步骤: 第一步:信息概念格的建立,其用可扩展标记语言存储数据,并由多个Category节点和多个指针节点两部分组成,其中指针节点的类型至少包括:局部与整体关系、类属关系、制造关系、人物关系、地理关系、白名单、黑名单; 第二步:信息概念格中Category节点和指针节点权重的计算; 第三步:信息概念格结合SVM预测文本类别,根据Category节点与指针节点的关系及指针节点相对于Category节点的权重值预测文本类别,如信息概念格无法预测类别时则用SVM模型预测类别。2.根据权利要求1所述的SVM文本自动分类方法,其特征在于:所述第二步中对于某个类别的所有特征词先采用开方检验方法,其计算公式是:3.根据权利要求2所述的SVM文本自动分类方法,其特征在于:所述Category节点指的是类别对象,指针节点指的是类别属性,而信息概念格描述的是Category节点之间、Category节点和指针节点之间、指针节点之间的联系和统一。4.一种基于信息概念格矫正的SVM文本自动分类系统,其特征在于其包括:数据存储模块、权重计算模块、SVM训练建模模块、和类别预测模块,其中数据存...

【专利技术属性】
技术研发人员:胡琳陈勇兵朱造峰
申请(专利权)人:苏州思方信息科技有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1