基于数据重复度的意见线索智能归集方法及系统技术方案

技术编号:34008415 阅读:21 留言:0更新日期:2022-07-02 13:58
本发明专利技术公开了基于数据重复度的意见线索智能归集方法及系统,属于数据处理和数据监管技术领域,本发明专利技术要解决的技术问题为意见线索数据重复,处理周期长,采用的技术方案为:该方法具体如下:获取意见线索数据中判断重复率的关键指标,并对关键指标进行预处理;使用Levenshtein Distance算法计算关键指标的重复率;将归集为一类的意见线索数据进行批量处理。该系统包括获取模块、计算模块及处理模块。计算模块及处理模块。计算模块及处理模块。

【技术实现步骤摘要】
基于数据重复度的意见线索智能归集方法及系统


[0001]本专利技术涉及数据处理和数据监管
,具体地说是一种基于数据重复 度的意见线索智能归集方法及系统。

技术介绍

[0002]随着时代的快速发展,法制的进步,城乡居民的维权意识逐渐提升,对自 身利益收到侵害时越来越多选择向相关部门进行反馈,造成了意见线索处理数 量剧增。意见线索的处理速度和效果直接关系到居民的生活幸福度,因此相关 部门对意见线索处理的时限、处理方式要求越来越严格,相关处理人员工作强 度和压力大,催生了意见线索处理系统的快速建设。
[0003]现有意见线索系统没有对重复的意见线索数据进行归集,存在同一意见线 索数据重复处理的问题,导致处理效率不佳、处理周期长的问题。

技术实现思路

[0004]本专利技术的技术任务是提供一种基于数据重复度的意见线索智能归集方法及 系统,来解决意见线索数据重复,处理周期长的问题。
[0005]本专利技术的技术任务是按以下方式实现的,一种基于数据重复度的意见线索 智能归集方法,该方法具体如下:
[0006]获取意见线索数据中判断重复率的关键指标,并对关键指标进行预处理;
[0007]使用Levenshtein Distance算法计算关键指标的重复率;
[0008]将归集为一类的意见线索数据进行批量处理。
[0009]作为优选,关键指标包括意见线索对象、意见线索内容、意见线索属地及 意见线索时间。
[0010]更优地,对关键指标进行预处理具体如下:<br/>[0011]对意见线索内容进行分词处理。
[0012]作为优选,使用Levenshtein Distance算法计算关键指标的重复率具体如 下:
[0013]使用Levenshtein Distance算法分别计算任一意见线索数据中关键指标与 其余意见线索数据中对应的同一关键指标的编辑距离;
[0014]将关键指标的字符串长度减去计算出的关键指标的编辑距离后,在除以关 键指标的字符串长度计算出关键指标的重复率;
[0015]根据关键指标的重复率归类意见线索。
[0016]更优地,根据关键指标的重复率归类意见线索的情况如下:
[0017]①
、将意见线索中至少两个关键指标重复率高于70%的意见线索归类为极 相似意见线索;
[0018]②
、将意见线索中至少两个关键指标重复率高于50%且低于70%的意见线索 归类为相似意见线索。
[0019]更优地,使用Levenshtein Distance算法分别计算任一意见线索数据中关 键指标与其余意见线索数据中对应的同一关键指标的编辑距离具体如下:
[0020]设意见线索A的意见线索对象字符串长度为m,意见线索B的意见线索对 象字符串长度为n,根据意见线索A和意见线索B建立一个(m+1)X(n+1)的数组; 其中,(m+1)为行,(n+1)为列,(m+1)X(n+1)的数组用于保存完成字符串转换所 需最少步数;
[0021]设将意见线索A的意见线索字符串x[1..m]转换到意见线索B的意见线索 字符串y[1

n]需要的最少步数为levenST[m][n]的值;
[0022]将levenST第0行初始化为0到n,第0列初始化为0到m;
[0023]为了将x[1...i]经过最少次数的增、删、改操作转换为y[1...j],字符 串x和字符串y的每一个字符两两进行比较,两两比较时,从levenST[i

1][j] +1、levenST[i][j

1]+1、levenST[i

1][j

1]+eq中取最小值 即为levenST[i][j]的值,具体为:
[0024]若x[i]和y[j]相等,则eq=0;
[0025]若x[i]和y[j]不相等,则eq=1;
[0026]将字符串x和字符串y中所有字母都遍历对比完成后,将字符串x转换为 字符串y所需最少步骤数为levenST[m][n],即为编辑距离。
[0027]作为优选,将归集为一类的意见线索数据进行批量处理具体如下:
[0028]处理意见线索数据时,查找是否有极相似及相似意见线索数据:
[0029]若有,则查看极相似及相似意见线索数据的详情,并从极相似及相似线索 数据中选择属性相同的意见线索事件的数据进行批量处理。
[0030]一种基于数据重复度的意见线索智能归集系统,该系统包括,
[0031]获取模块,用于获取意见线索数据中判断重复率的关键指标,并对关键指 标进行预处理;其中,关键指标包括意见线索对象、意见线索内容、意见线索 属地及意见线索时间;
[0032]计算模块,用于使用Levenshtein Distance算法计算关键指标的重复率;
[0033]处理模块,用于将归集为一类的意见线索数据进行批量处理。
[0034]一种电子设备,包括:存储器和至少一个处理器;
[0035]其中,所述存储器上存储有计算机程序;
[0036]所述至少一个处理器执行所述存储器存储的计算机程序,使得所述至少一 个处理器执行如上述的基于数据重复度的意见线索智能归集方法。
[0037]一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序, 所述计算机程序可被处理器执行以实现如上述的基于数据重复度的意见线索智 能归集方法。
[0038]本专利技术的基于数据重复度的意见线索智能归集方法及系统具有以下优点:
[0039](一)本专利技术旨在通过对意见线索数据中的意见线索对象、意见线索内容、 意见线索属地等关键指标进行分词,根据关键指标的重复度,对意见线索数据 进行归集分类,推动城乡居民的意见线索问题迅速批量处理,解决了人工分辨 意见线索数据重复的问题,提高意见线索事件的办理效率,提高公众服务能力, 推动意见线索处理分发的信息化、智能化、规范化;
[0040](二)本专利技术实现了对重复的意见线索数据进行归集分类,将从各个地方 汇聚来的意见线索数据快速智能的归集分类,用户在使用本专利技术处理意见线索 数据时,会推送重
复度高的同一类意见线索数据,用户可将属于同一事件的意 见线索数据批量进行处理,提高意见线索的处理效率,同时降低人工劳动强度;
[0041](三)本专利技术能够提醒用户重复率高的意见线索数据,用户可通过此提醒, 将属于同一意见线索事件的数据进行批量处理,提高工作效率,推动城乡居民 的意见线索问题迅速批量处理,解决意见线索数据重复,处理不及时问题;
[0042](四)本专利技术通过意见线索数据关键指标的重复度,将意见线索数据进行 归集分类,方便用户将重复的意见线索数据进行批量处理,大大减少了处理重 复意见线索数据的时间,解决了人工分辨意见线索数据重复的问题,通过意见 线索数据重复度归集分类,推动了意见线索事件处理的规范化、本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于数据重复度的意见线索智能归集方法,其特征在于,该方法具体如下:获取意见线索数据中判断重复率的关键指标,并对关键指标进行预处理;使用Levenshtein Distance算法计算关键指标的重复率;将归集为一类的意见线索数据进行批量处理。2.根据权利要求1所述的基于数据重复度的意见线索智能归集方法,其特征在于,关键指标包括意见线索对象、意见线索内容、意见线索属地及意见线索时间。3.根据权利要求2所述的基于数据重复度的意见线索智能归集方法,其特征在于,对关键指标进行预处理具体如下:对意见线索内容进行分词处理。4.根据权利要求1所述的基于数据重复度的意见线索智能归集方法,其特征在于,使用Levenshtein Distance算法计算关键指标的重复率具体如下:使用Levenshtein Distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离;将关键指标的字符串长度减去计算出的关键指标的编辑距离后,在除以关键指标的字符串长度计算出关键指标的重复率;根据关键指标的重复率归类意见线索。5.根据权利要求4所述的基于数据重复度的意见线索智能归集方法,其特征在于,根据关键指标的重复率归类意见线索的情况如下:

、将意见线索中至少两个关键指标重复率高于70%的意见线索归类为极相似意见线索;

、将意见线索中至少两个关键指标重复率高于50%且低于70%的意见线索归类为相似意见线索。6.根据权利要求4所述的基于数据重复度的意见线索智能归集方法,其特征在于,使用Levenshtein Distance算法分别计算任一意见线索数据中关键指标与其余意见线索数据中对应的同一关键指标的编辑距离具体如下:设意见线索A的意见线索对象字符串长度为m,意见线索B的意见线索对象字符串长度为n,根据意见线索A和意见线索B建立一个(m+1)X(n+1)的数组;其中,(m+1)为行,(n+1)为列,(m+1)X(n+1)的数组用于保存完成字符串转换所需最少步数;设将意见线索A的意见线索字符串x[1..m]转换到意见线索B...

【专利技术属性】
技术研发人员:房祥花栾丽丽张雷王柏华赵绍祥
申请(专利权)人:浪潮软件股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1