一种基于大数据分类算法的消费维权指数计算方法技术

技术编号:18018998 阅读:43 留言:0更新日期:2018-05-23 05:13
本发明专利技术提供了一种基于大数据分类算法的消费维权指数计算方法,包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:S1:专家评分模型建立;S2:指标得分率计算;步骤4)构建SVM分类器;步骤5)训练分类模型;步骤6)应用模型预测结果。本发明专利技术提供的方法基于统计学理论,结合最新的数据挖掘理论实施方法,采用SVM支持向量机构建标准化的消费维权计算模型,并提前以历史数据作为模型构建的基础,在现今计算机运算速度的支持下,能达到快速、科学、标准、客观的计算结果。

【技术实现步骤摘要】
一种基于大数据分类算法的消费维权指数计算方法
本专利技术涉及消费维权指数计算技术,具体涉及一种基于大数据分类算法的消费维权指数计算方法。
技术介绍
随着近年社会经济的快速发展,12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议,是广大人民群众送上门来的“调查研究”,是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。消费维权指数,是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。工商行政管理机关12345政务服务热线中心直接面对广大消费者,贴近人民群众,贴近市场,每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈,能够及时、准确地反映消费热点的变化特点和规律,反映市场主体诚信经营状况、商品和服务质量状况,以及市场公平交易秩序状况,是市场监管质量的“温度计”、“晴雨表”,更是评价工商行政管理机关市场监管成效的“主考官”。因此,加强对12345数据的分析利用,特别是充分发掘“消费维权指数”的理论与现实价值,坚持用数据说话,对于服务政府决策,服务工商机关市场监管,服务消费教育引导,营造安全放心的消费环境,充分激发消费拉动内需的作用等具有重要意义。传统“消费维权指数”的计算方法:消费维权指数可以某一时期确立为“基期”,选择服装鞋帽、美容美发、家居用品、家用电器及计算机产品、通讯器材类、交通工具、农业生产资料、网络交易这八大重点商品和服务作为监测领域,计算得出消费者投诉举报的商品和服务涉案总金额,然后建立数学模型:消费维权指数=当月八大类别商品或服务各涉案金额除以基期(某一时期)同类商品或服务涉案总金额乘以100。该算法的缺点:缺点1,仅仅考虑了涉案金额为唯一指标,计算结果往往会被某涉案金额高的数据影响,缺少了其他方面的考虑:立案比例、涉及人员人数、投诉人比例、异常企业投诉比例等等;缺点2,由于涉及的数据量巨大,新增了多个数据维度,给人工计算带来了若干困难。
技术实现思路
有鉴于此,本专利技术的主要目的是提供一种基于大数据专家分层评分算法的建筑消防安全健康度的评估方法,一种基于大数据分类算法的消费维权指数计算方法,将消费维权指数体系涉及的其他维度纳入计算范围,运用大数据分类算法、专家评分模型保证结果的准确和科学。具体的方案如下:一种基于大数据分类算法的消费维权指数计算方法,包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:S1:专家评分模型建立;S2:指标得分率计算;步骤4)构建SVM分类器;步骤5)训练分类模型;步骤6)应用模型预测结果。进一步地,步骤3)中S1步骤的具体评分方法及对评分的处理如下:对数量和时间答案的处理如下表述:式中为评价结果,p为正整数,n为专家数,专家评分值从大到小排列,则Xp+1公式表示奇数个专家评分的中位数,(Xp+Xp+1)/2表示偶数个专家评分的中位数。进一步地,步骤3)具体步骤如下:S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为{Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,···,n个专家对第i(i=1,2,···,n)领域的评分序分值,其值为j(j=1,2,···,m);S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人S3:将step2中计算得到的所有14个项目得分率Si组合成一个14维的向量x=[a1,a2,…,a14],该向量即表示一个投诉工单的评分情况。计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为第m个工单的得分率向量,ym为对应第m个工单的得分率结果。进一步地,步骤4)具体步骤如下:S1:设给定的训练集为{(z1,y1),(z2,y2),...,(zn,yn)}其中zi∈Rn为输入向量,yi∈{-1,1}为输出向量,假设该训练集可被一个超平面W·Z+b=0线性划分,问题转化为求最优化超平面问题:S2:对于非线性可分的情况,可以通过一个映射函数(在SVM称核函数),将低维的输入空间Rn映射到高维的特征空间H,使线性可分;则优化问题转化为S3:解出式(2)最优化函数为:从式(2)最小化问题可以得出,选择合适的函数K(·)和C即可以确定SVM分类器;S4:选用RBF径向基核函数,即K(Zi,Zj)=exp(-Υ||Zi-Zj||)2,则分类器的优化问题最终转化为参数对(C,Υ)的选择问题。进一步地,步骤5)具体步骤如下:S1:以1≤C≤1000和0≤Υ≤100为范围,构建取值范围内所有C和Υ组成的参数对;S2:依次取参数对(C,Υ)作为基于RBF核函数的SVM分类器参数初始值,训练数据向量集Strain和测试数据向量集Stest,记这一分类模型下对测试数据集预测的准确率为pt;S3:针对测试集准确率,用计算机程序调整测试SVM算法中不同的C值和Υ值参数对,使准确率pt达到预定要求的准确率p0,并保存记录这一准确率p0下的模型参数对(C0,Υ0)。进一步地,步骤6)具体步骤如下:S1:构建不含标记结果的工单得分率数据向量x’;S2:采用步骤三中训练所得的模型参数(C0,Y_0)对x’进行SVM分类预测,得到输出结果y’∈{-1,1};S3:y’即为所求的消费维权指数计算结果。本专利技术提供的方法基于统计学理论,结合最新的数据挖掘理论实施方法,采用SVM支持向量机构建标准化的消费维权计算模型,并提前以历史数据作为模型构建的基础,在现今计算机运算速度的支持下,能达到快速、科学、标准、客观的计算结果。附图说明图1为本专利技术的方法流程图。具体实施方式以下结合实例对本专利技术做进一步详细说明。术语解释:大数据分类算法:大数据分类算法指的是以支持向量机、神经网络等为主的,以找出数据库中的一组数据对象的共同特点并按照分类模式将其划分为不同的类的算法。其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别中。支持向量机:在机器学习中,支持向量机(SVM,还支持矢量网络)是与相关的学习算法有关的监督学习模型,可以分析数据,识别模式,用于分类和回归分析。给定一组训练样本,每个本文档来自技高网
...
一种基于大数据分类算法的消费维权指数计算方法

【技术保护点】
一种基于大数据分类算法的消费维权指数计算方法,其特征在于,包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:S1:专家评分模型建立;S2:指标得分率计算;步骤4)构建SVM分类器;步骤5)训练分类模型;步骤6)应用模型预测结果。

【技术特征摘要】
1.一种基于大数据分类算法的消费维权指数计算方法,其特征在于,包括如下步骤:步骤1)利用web集成技术采集并获取12345热线工单内容;步骤2)对将步骤1)采集的12345热线按照工单内容按照关键字通过嵌入式分类器进行分类,得到二级指标,以及重要等级进行分组分类;步骤3)专家评分模型建立并计算二级指标的得分率,包括如下:S1:专家评分模型建立;S2:指标得分率计算;步骤4)构建SVM分类器;步骤5)训练分类模型;步骤6)应用模型预测结果。2.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,步骤3)中S1步骤的具体评分方法及对评分的处理如下:对数量和时间答案的处理如下表述:式中为评价结果,p为正整数,n为专家数,专家评分值从大到小排列,则Xp+1公式表示奇数个专家评分的中位数,(Xp+Xp+1)/2表示偶数个专家评分的中位数。3.根据权利要求1所述的基于大数据分类算法的消费维权指数计算方法,其特征在于,步骤3)具体步骤如下:S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为{Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,…,n个专家对第i(i=1,2,…,n)领域的评分序分值,其值为j(j=1,2,…,m);S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人S3:将step2中计算得到的所有14个项目得分率Si组合成一个14维的向量x=[a1,a2,…,a14],该向量即表示一个投诉工单的评分情况,计算所有投诉工单评分情况向量,构成全体数据集Z={zn,n∈R};S4:对全体数据集Z中的数据进行标号分类,所有高得分率工单标注为1,非高得分率工单标注为-1;并将标注结果后全体数据集中随机取出的60%数据组合构成训练数据集Strain={(zn,yn)|zn∈Z,zn∈{-1,1},n=1,2,3…}其中zn为第n个工单的得分率向量,yn为对应第n个工单的得分率结果,其余40%作为测试数据集Stest={(zm,ym)|zm∈Z,ym∈{-1,1},m=1,2,3…}其中zm为...

【专利技术属性】
技术研发人员:孔祥明陈洁蔡文鑫
申请(专利权)人:广东广业开元科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1