【技术实现步骤摘要】
基于数据重复度的意见线索智能归集方法及系统
[0001]本专利技术涉及数据处理和数据监管
,具体地说是一种基于数据重复 度的意见线索智能归集方法及系统。
技术介绍
[0002]随着时代的快速发展,法制的进步,城乡居民的维权意识逐渐提升,对自 身利益收到侵害时越来越多选择向相关部门进行反馈,造成了意见线索处理数 量剧增。意见线索的处理速度和效果直接关系到居民的生活幸福度,因此相关 部门对意见线索处理的时限、处理方式要求越来越严格,相关处理人员工作强 度和压力大,催生了意见线索处理系统的快速建设。
[0003]现有意见线索系统没有对重复的意见线索数据进行归集,存在同一意见线 索数据重复处理的问题,导致处理效率不佳、处理周期长的问题。
技术实现思路
[0004]本专利技术的技术任务是提供一种基于数据重复度的意见线索智能归集方法及 系统,来解决意见线索数据重复,处理周期长的问题。
[0005]本专利技术的技术任务是按以下方式实现的,一种基于数据重复度的意见线索 智能归集方法,该方法具体如下:r/>[0006]获本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于数据重复度的意见线索智能归集方法,其特征在于,该方法具体如下:获取意见线索数据中判断重复率的关键指标,并对关键指标进行预处理;使用Levenshtein Distance算法计算关键指标的重复率;将归集为一类的意见线索数据进行批量处理。2.根据权利要求1所述的基于数据重复度的意见线索智能归集方法,其特征在于,关键指标包括意见线索对象、意见线索内容、意见线索属地及意见线索时间。3.根据权利要求2所述的基于数据重复度的意见线索智能归集方法,其特征在于,对关键指标进行预处理具体如下:对意见线索内容进行分词处理。4.根据权利要求1所述的基于数据重复度的意见线索智能归集方法,其特征在于,使用Levenshtein Distance算法计算关键指标的重复率具体如下:使用Levenshtein Distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离;将关键指标的字符串长度减去计算出的关键指标的编辑距离后,在除以关键指标的字符串长度计算出关键指标的重复率;根据关键指标的重复率归类意见线索。5.根据权利要求4所述的基于数据重复度的意见线索智能归集方法,其特征在于,根据关键指标的重复率归类意见线索的情况如下:
①
、将意见线索中至少两个关键指标重复率高于70%的意见线索归类为极相似意见线索;
②
、将意见线索中至少两个关键指标重复率高于50%且低于70%的意见线索归类为相似意见线索。6.根据权利要求4所述的基于数据重复度的意见线索智能归集方法,其特征在于,使用Levenshtein Distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离具体如下:设意见线索A的意见线索对象字符串长度为m,意见线索B的意见线索对象字符串长度为n,根据意见线索A和意见线索B建立一个(m+1)X(n+1)的数组;其中,(m+1)为行,(n+1)为列,(m+1)X(n+1)的数组用于保存完成字符串转换所需最少步数;设将意见线索A的意见线索字符串x[1..m]转换到意见线索B...
【专利技术属性】
技术研发人员:房祥花,栾丽丽,张雷,王柏华,赵绍祥,
申请(专利权)人:浪潮软件股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。