The invention provides an analysis method of consumer rights index based on machine learning, which is characterized by the following steps: Step 1) data acquisition and processing and generating standardized data: Step 2) use the extraction module to obtain standardized data obtained from the data acquisition module, and use the data processing module to obtain the data processing module. To the degree of emotional inclination; step 3) use the classification module to classify and classify the consumer rights data after the analysis of emotional inclination; step 4) use the processor to calculate the index score; step 5) construct the SVM classifier; step 6) build the training classification model; step 7) model prediction through step 6). Combined with the latest emotional inclination analysis and calculation method and combined with business data calculation, it can achieve fast, scientific, standard and objective calculation results. It provides the calculation of consumer rights indicators for the law enforcement departments and provides Law Enforcement Assistance for the management department.
【技术实现步骤摘要】
一种基于机器学习的文本挖掘技术消费维权指标分析方法
本专利技术涉及消费维权指数计算技术,具体涉及一种基于机器学习的文本挖掘技术消费维权指标分析方法,该方法主要应用于政府维稳监控系统、投诉举报数据分析研判系统、12345政务服务热线系统、公安系统、工商局系统、企业征信系统。
技术介绍
随着近年社会经济的快速发展,12345政务服务热线受理部分消费者咨询、投诉、举报、意见及建议,是广大人民群众送上门来的“调查研究”,是工商行政管理机关研究加强和改进市场监管工作必须参考的大数据。其中投诉类型占12345工单数量一半以上,对投诉工单进行文本处理和分析,建立企业投诉风险预警模型是实现市场“大数据”向市场监管能力转化的有效探索和重要途径。工商行政管理机关12345政务服务热线中心直接面对广大消费者,贴近人民群众,贴近市场,每天都会产生大量数据信息。这些数据信息是广大消费者对当下市场存在问题的实时反馈,能够及时、准确地反映消费热点的变化特点和规律,反映市场主体诚信经营状况、商品和服务质量状况,以及市场公平交易秩序状况,是市场监管质量的“温度计”、“晴雨表”,更是评价工商行政管理 ...
【技术保护点】
一种基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,包括如下步骤:步骤1)数据采集及处理并生成规范化数据:S1:利用数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键 ...
【技术特征摘要】
1.一种基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,包括如下步骤:步骤1)数据采集及处理并生成规范化数据:S1:利用数据采集模块获取12345热线的工单文本;对数据采集模块获取的工单文本采用处理器进行初始处理步骤,对录入的文本数据利用分词模块和去噪模块进行处理,获得各个文本数据中的关键词;其中,数据采集模块连接处理器,处理器内设置有分词模块和去噪模块;S2:设定文本特征向量化模块,将各个关键词进行向量化并作归一化处理,获得由各个关键词W在文件d中的向量化归一化结果建立的实数值矩阵;S3:设定文本数据相似性匹配模块,根据建立的所述实数值矩阵,利用余弦定理计算各关键词间的余弦相似度,并将余弦距离最近的文本数据进行匹配,形成近义词词库;S4:设定规范化数据生成模块,将匹配好的文本数据按照设定的统一规范化模式生成规范化数据;步骤2)利用提取模块获取数据采集模块得到的规范化数据,并利用数据处理模块得到情感倾向度;步骤3)利用分类模块将情感倾向度分析后的消费维权数据进行分组和权重分类;步骤4)利用处理器进行指标得分率计算;步骤5)构建SVM分类器;步骤6)构建训练分类模型;步骤7)通过步骤6)进行模型预测。2.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,步骤2)利用数据处理模块得到情感倾向度的具体步骤如下:S1:建立连词和否定词词典库;S2:根据连词和否定词词典库从规范化数据中抽取连词和否定词,并标记相应词在规范化数据中的位置;S3:匹配现有的情感词典库,获得词汇的极性及其情感评分值;S4:通过连词位置,确定前句与后句所占比重,再根据否定词位置判断双重否定以及邻近词汇的极性反转;S5:利用词汇的极性及其情感评分值带入连词和否定词后对规范化数据进行累加获得情感计算评分;S6:循环步骤S2至S5,若情感计算评分为正则为积极,为负则为消极,否则为中心;S7:投诉风险等级规则用于根据聚类结果将投诉风险等级划分为高危极、危险级、一般投诉级、投诉倾向级以及无投诉倾向级这五个风险等级;S8:提高限定结果的精确性:在制定投诉风险等级规则需要对规则进行验证,将验证集数据输入建立的分类学习模型,获得验证集数据中各文本数据的投诉风险等级,并将结果集与验证集数据中对应的等级数据进行比对,计算模型预测的正确率∈{-1,1}。3.根据权利要求1所述的基于机器学习的文本挖掘技术消费维权指标分析方法,其特征在于,步骤4)利用处理器进行指标得分率计算的具体步骤如下:S1:设消费维权指数有m个评价领域,有n个专家参与评价,设某一专家k给出的评分值集合为Xi(j))}(k),式中{Xi(j))}(k)表示第k=1,2,…,n个专家对第i(i=1,2,…,n)领域的评分序分值,其值为j(j=1,2,…,m);S2:根据可将序分值集合转化为基分值集合{Bi(j))}(k),其中根据可将序分值集合转化为基分值集合{Bi(j)}(k),其中{Bi(j)}(k)表示第k个专家对第i个领域排在第j位时所对应的基数分值;然后,用下述公式计算每个研究领域的重要程度:在(2)以及(3)式中,m在(2)以及(3)式中,m表示领域数;Si表示i领域得分值;n表示专家数;Bi(j)表示i领域排在j位得分值;Ni表示赞同某一领域排在第j位的人S3:将S2中计算得到的所有m个项目得分率Si组合成一个m维的向量x=[a1,a2,…,am],该向...
【专利技术属性】
技术研发人员:王晓佳,蔡文鑫,
申请(专利权)人:广东广业开元科技有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。