一种基于SVM的群体数据分类方法及装置制造方法及图纸

技术编号:18426947 阅读:31 留言:0更新日期:2018-07-12 02:08
本发明专利技术公开一种基于SVM的群体数据分类方法及装置,其方法包括:步骤S1,提取历史群体数据,确定群体及群体的特征数据;步骤S2,根据所述特征数据,构建所述群体的二次特征矩阵;步骤S3,根据所述二次特征矩阵,训练对应的SVM分类器;步骤S4,使用所述SVM分类器对待分类群体数据进行分类;其装置包括对应的历史数据处理单元、特征矩阵构建单元、分类器训练单元和分类器分类单元。这样,可以通过计算机对群体数据进行分类,方便、快速,节省了大力的人力物力;另外,相比其他分类器,SVM在分类器性能上有较大提升,并且具有高分类精度的优势,从而提高群体组成分析的准确性。

A group data classification method and device based on SVM

The invention discloses a group data classification method and device based on SVM. The method includes: step S1, extracting historical group data, determining the characteristic data of groups and groups; step S2, constructing two characteristic matrix of the group according to the characteristic data; step S3, training pairs according to the two characteristic matrix. The corresponding SVM classifier; step S4, using the SVM classifier to classify the classified group data; its device includes the corresponding historical data processing unit, the feature matrix construction unit, the classifier training unit and the classifier classification unit. In this way, the group data can be classified by computer, it is convenient, fast, and saves great manpower and material resources. In addition, compared with other classifiers, SVM has a great improvement in classifier performance, and has the advantage of high classification precision, thus improving the accuracy of group composition analysis.

【技术实现步骤摘要】
一种基于SVM的群体数据分类方法及装置
本专利技术涉及数据分类领域,具体涉及一种基于SVM的群体数据分类方法及装置。
技术介绍
市场研究是一门由来已久的学科,这么多年的发展历史中,涌现了很多研究方法。进入二十一世纪以后,随着计算机技术的发展,市场研究领域也慢慢的将调研的计算平台转移到计算机上。使用计算机来进行市场数据的分析,能够快速的产生报表跟各类可视化的数据模型,大大减少了人工的计算量以及调研的时间,提高了准确度。在这个由信息主导的时代,我们对于信息的重视程度越来越高。同样,在研究某个群体的过程中,了解这个群体的组成,也是必不可少的。对群体组成的分析,其实质上就是根据历史数据来对样本群体数据进行分类,但是目前的分类方法主要是通过人工进行,不仅工作量大,而且费时费力。因此,需要一种可以通过计算机对群体数据进行分类的方法及装置。鉴于上述缺陷,本专利技术创作者经过长时间的研究和实践终于获得了本专利技术。
技术实现思路
为解决上述技术缺陷,本专利技术采用的技术方案在于,首先提供一种基于SVM的群体数据分类方法,其包括:步骤S1,提取历史群体数据,确定群体及群体的特征数据;步骤S2,根据所述特征数据,构建所述群体的二次特征矩阵;步骤S3,根据所述二次特征矩阵,训练对应的SVM分类器;步骤S4,使用所述SVM分类器对待分类群体数据进行分类。较佳的,所述步骤2包括:步骤S21,分析群体的特征数据,从中提取出群体各个类别对应的基本特征;步骤S22,将所述历史群体数据中的数据转化为特征向量;步骤S24,以所述特征向量构建群体的二次特征矩阵。较佳的,所述步骤2还包括:步骤S23,根据特征数据的重要程度而赋予其不同的权值,并修正所述特征向量。较佳的,所述步骤3包括:步骤S31,在所述二次特征矩阵中加入群体中各个类别的分类信息;步骤S32,对具有所述分类信息的所述二次特征矩阵进行学习,在所述特征向量与群体的所述分类信息之间建立对应关系,训练所述SVM分类器,得到其判断函数。较佳的,所述步骤S2中,所述二次特征矩阵中行向量和列向量分别表示群体的每个个体和群体的特征数据,所述二次特征矩阵中的每一个元素均为对应的群体中个体及特征数据的关联度。较佳的,所述步骤S4中,所述SVM分类器的数量与所述群体的类别数量相同。较佳的,所述步骤S4中,所述SVM分类器的数量与所述群体的类别数量相同且一一对应,分类时,所述待分类群体数据经过所有的SVM分类器,若其中只有一个SVM分类器输出正数,则所述待分类群体数据属于该SVM分类器对应的类别;若其中有零个或大于一个SVM分类器输出正数,则所述待分类群体数据属于所有SVM分类器中判断函数的值最大的SVM分类器对应的类别。其次提供一种与上述所述的基于SVM的群体数据分类方法对应的基于SVM的群体数据分类装置,其包括:历史数据处理单元,其提取历史群体数据,确定群体及群体的特征数据;特征矩阵构建单元,其根据所述特征数据,构建所述群体的二次特征矩阵;分类器训练单元,其根据所述二次特征矩阵,训练对应的SVM分类器;分类器分类单元,其使用所述SVM分类器对待分类群体数据进行分类。较佳的,所述特征矩阵构建单元包括:基本特征提取子单元,其分析群体的特征数据,从中提取出群体各个类别对应的基本特征;特征向量转化子单元,其将所述历史群体数据中的数据转化为特征向量;向量构建矩阵子单元,其以所述特征向量构建群体的二次特征矩阵。较佳的,所述特征矩阵构建单元还包括:权值赋予子单元,其根据特征数据的重要程度而赋予其不同的权值,并修正所述特征向量。与现有技术比较本专利技术的有益效果在于:这样,可以通过计算机对群体数据进行分类,方便、快速,节省了大力的人力物力;另外,相比多种分类器,比如:神经网络、决策树、朴素贝叶斯等,SVM在分类器性能上有较大提升,并且具有高分类精度的优势,从而提高群体组成分析的准确性;对群体特征进行分析并提取,能大大提高特征与相对应的类别的关联度,从而使分类结果更加可靠。附图说明为了更清楚地说明本专利技术各实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍。图1是本专利技术基于SVM的群体数据分类方法的流程图;图2是本专利技术基于SVM的群体数据分类方法步骤S2的流程图一;图3是本专利技术基于SVM的群体数据分类方法步骤S2的流程图二;图4是本专利技术基于SVM的群体数据分类方法步骤S3的流程图;图5是本专利技术基于SVM的群体数据分类装置的结构图;图6是本专利技术基于SVM的群体数据分类装置特征矩阵构建单元的结构图一;图7是本专利技术基于SVM的群体数据分类装置特征矩阵构建单元的结构图二;图8是本专利技术基于SVM的群体数据分类装置分类器训练单元的结构图。具体实施方式以下结合附图,对本专利技术上述的和另外的技术特征和优点作更详细的说明。实施例1如图1所示,其为本专利技术基于SVM的群体数据分类方法的流程图;其中,所述基于SVM的群体数据分类方法,包括:步骤S1,提取历史群体数据,确定群体及群体的特征数据;所述历史群体数据,至少包括群体的类别及群体对应的特征数据;要对历史群体数据进行分析,首先要对历史群体数据进行分析,从中确定群体的各个类别及每个类别的群体对应的特征数据。我们以商场购物为例,其中的群体为商场的购物群体,可以标注为学生、白领、教师、老人、青年、小孩等等作为群体的分类,其中有冲突的地方可以根据实际情况进行调整,但每个群体的类别都应该是与群体的其他类别有明显的区分,否则后续进行群体分类时的准确度会大大降低;群体的特征数据,跟群体的类别相关,比如,学生类别购物的种类为该类别的特征数据,其中可能包括:书本、文具、橡皮、水果、牛奶等,均为其特征数据,老人类别的特征数据,可能包括:核桃奶、板蓝根、水果等,也均为其特征数据。历史群体数据的来源可以是通过人工或计算机统计的日常购物数据,具体以实际情况为准。从历史群体数据中确定群体的类别及各个群体对应的特征数据,可以对其进行梳理,同时可以剔除其中明显错误的数据,提高后续分析的准确率;也可以提高后续的分析速度,进而提高整个基于SVM的群体数据分类方法的速度和效率。步骤S2,根据所述特征数据,构建所述群体的二次特征矩阵;根据上述步骤确定的群体及对应的特征数据,构建群体的二次特征矩阵,其中,二次特征矩阵中行向量和列向量分别表示群体的每个个体和群体的特征数据,二次特征矩阵中的每一个元素均为对应的群体中个体及特征数据的关联度。这样,可以将群体及对应的特征数据转换为矩阵的形式,将其数字化,便于计算机进行识别和分类,方便快速,进而提高整个基于SVM的群体数据分类方法的效率和准确度。步骤S3,根据所述二次特征矩阵,训练对应的SVM分类器。根据历史群体数据构建的二次特征矩阵,对SVM分类器进行训练,从而获得成熟的SVM分类器,以后续对新的群体数据进行分类。SVM解决两类分类问题主要是基于结构风险最小化原则,找到一个最优分类超平面以最大间隔将两类数据分开。设线性可分样本集S={(xi,yi)|i=1,…,n},其中xi∈Rd(Rd为d维特征空间),yi={+1,-1}为xi对应的类别标号。d维空间中的线性判别函数的一般形式为g(x)=w·x+b,对应的分类面方程为w·x+b=0.将判别函数g(x)归一化使得两类样本都满足本文档来自技高网...

【技术保护点】
1.一种基于SVM的群体数据分类方法,其特征在于,包括:步骤S1,提取历史群体数据,确定群体及群体的特征数据;步骤S2,根据所述特征数据,构建所述群体的二次特征矩阵;步骤S3,根据所述二次特征矩阵,训练对应的SVM分类器;步骤S4,使用所述SVM分类器对待分类群体数据进行分类。

【技术特征摘要】
1.一种基于SVM的群体数据分类方法,其特征在于,包括:步骤S1,提取历史群体数据,确定群体及群体的特征数据;步骤S2,根据所述特征数据,构建所述群体的二次特征矩阵;步骤S3,根据所述二次特征矩阵,训练对应的SVM分类器;步骤S4,使用所述SVM分类器对待分类群体数据进行分类。2.如权利要求1所述的基于SVM的群体数据分类方法,其特征在于,所述步骤2包括:步骤S21,分析群体的特征数据,从中提取出群体各个类别对应的基本特征;步骤S22,将所述历史群体数据中的数据转化为特征向量;步骤S24,以所述特征向量构建群体的二次特征矩阵。3.如权利要求2所述的基于SVM的群体数据分类方法,其特征在于,所述步骤2还包括:步骤S23,根据特征数据的重要程度而赋予其不同的权值,并修正所述特征向量。4.如权利要求1-3中任一所述的基于SVM的群体数据分类方法,其特征在于,所述步骤3包括:步骤S31,在所述二次特征矩阵中加入群体中各个类别的分类信息;步骤S32,对具有所述分类信息的所述二次特征矩阵进行学习,在所述特征向量与群体的所述分类信息之间建立对应关系,训练所述SVM分类器,得到其判断函数。5.如权利要求1-3中任一所述的基于SVM的群体数据分类方法,其特征在于,所述步骤S2中,所述二次特征矩阵中行向量和列向量分别表示群体的每个个体和群体的特征数据,所述二次特征矩阵中的每一个元素均为对应的群体中个体及特征数据的关联度。6.如权利要求1-3中任一所述的基于SVM的群体数据分类方法,其特征在于,所述步...

【专利技术属性】
技术研发人员:黄超李青海潘宇翔王平张晓亭杨婉
申请(专利权)人:广东精点数据科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1