【技术实现步骤摘要】
一种智慧警务数据融合清洗研判装置
本专利技术涉及到智慧警务的
,特别是涉及到一种智慧警务数据清洗方法、装置、计算机设备和存储介质。
技术介绍
随着城市化进程的加快及经济发展,以及社会治安构成要素的日渐膨胀,警务智能化已逐渐变成了警务机关的新需求,智慧警务的提出顺应了警务智能化的潮流,智慧警务应用是基于社会面智能安防系统的基础数据,充分利用大数据分析、诊断与预测分析、人工智能、决策支持系统等核心技术,为警务机关提供更智能化、移动化的辅助工作,以便减轻警务机关工作人员的工作压力,提高办事效率。须知智慧警务数据量庞大而复杂,在分析处理这些警务数据之前,需要对其进行清洗处理,目前针对警务数据的清洗处理,一般都是通过传统方法清洗,而且主要依赖人工对不同数据库中的数据进行人工处理。这样不仅会耗费大量的时间,而且由于不可控因素太多,数据清洗的错误率也会增加,精准度不高,导致数据质量的提高程度不高、可靠性不强。
技术实现思路
本专利技术的主要目的为提供一种智慧警务数据清洗方法、装置、计算机设备和存储介质,旨 ...
【技术保护点】
1.一种智慧警务数据清洗方法,其特征在于,包括:/n从预设的数据库中获取需要清洗的警务数据;/n对所述警务数据进行分析得到数据特征,根据预设的数据分类模板对所述数据特征进行匹配,得到与所述数据特征匹配的警务数据类型,并将所述警务数据记为与所述警务数据类型对应的目标数据;/n将所述目标数据分配至与所述数据类型匹配的处理队列,不同的警务数据类型对应不同的处理队列;/n从所述处理队列中取出所述目标数据,并判断所述目标数据是否为时间序列型数据;/n若否,则检测所述目标数据的缺失数据记录,依据所述缺失数据记录补全所述目标数据中的缺失数据,得到补全数据;/n对所述补全数据进行错误检测, ...
【技术特征摘要】
1.一种智慧警务数据清洗方法,其特征在于,包括:
从预设的数据库中获取需要清洗的警务数据;
对所述警务数据进行分析得到数据特征,根据预设的数据分类模板对所述数据特征进行匹配,得到与所述数据特征匹配的警务数据类型,并将所述警务数据记为与所述警务数据类型对应的目标数据;
将所述目标数据分配至与所述数据类型匹配的处理队列,不同的警务数据类型对应不同的处理队列;
从所述处理队列中取出所述目标数据,并判断所述目标数据是否为时间序列型数据;
若否,则检测所述目标数据的缺失数据记录,依据所述缺失数据记录补全所述目标数据中的缺失数据,得到补全数据;
对所述补全数据进行错误检测,并依据所述错误检测的结果对所述补全数据进行修正,得到修正数据;
对所述修正数据进行相似重复记录检测,并依据检测结果剔除所述修正数据中的相似重复数据,得到经过清洗过的干净警务数据;
将所述干净警务数据依据警务业务需求分配至指定的警务业务系统。
2.根据权利要求1所述的智慧警务数据清洗方法,其特征在于,所述警务数据类型为交通数据类型,所述检测所述目标数据的缺失数据记录,依据所述缺失数据记录补全所述目标数据中的缺失数据,得到补全数据的步骤,包括:
扫描所述交通数据以确定所述目标数据是否存在所述缺失数据;
若是,则将所述交通数据进行分割,得到多个路段数据,并从多个所述路段数据中解析出存在所述缺失数据的路段数据的位置信息;
获取所述交通数据的历史数据,依据所述历史数据分析得到多个具有相似变换规律的规律路段数据,并依据所述位置信息在各个所述规律路段数据中找到与所述缺失数据对应的片段;
计算各个片段的均值,并将所述均值补充至所述交通数据中与所述片段对应的位置,得到所述补全数据。
3.根据权利要求1所述的智慧警务数据清洗方法,其特征在于,所述对所述修正数据进行相似重复记录检测的步骤,包括:
从所述修正数据中选择一个或多个字段创建一个索引;
将所述修正数据中每条记录按照索引排序,并将排序好的记录移入计算窗口;
将所述计算窗口内的第一条记录与所述计算窗口内剩下的N-1条记录分别进行相似度计算,得到所述第一条记录与剩下各所述记录的相似度值,以获得所述第一条记录的相似重复数据;
当所述计算窗口中的第一条记录与所述滑动窗口内剩余N-1条记录都计算完成后,将所述第一条记录滑出所述计算窗口,重复计算所述计算窗口内的记录,直至所述计算窗口内的所有记录遍历所述第一记录的计算过程,得到多个所述相似重复数据。
4.根据权利要求3所述的智慧警务数据清洗方法,其特征在于,所述将所述计算窗口内的第一条记录与所述计算窗口内剩下的N-1条记录分别进行相似度计算的步骤,包括:
分别计算所述第一条记录的字符串与剩下的N-1条记录的字符串的编辑距离、最长公共子序列长度以及最长公共子串长度;
依据所述编辑距离、最长公共子序列长度以及最长公共子串长度计算得到对应的相似度值;
其中,利用以下公式计算得到所述相似度值:
其中,S为相似度值,A为平衡因子,L为所述最长公共子串长度;K为所述第一条记录的字符串与另一记录字符串两者中较长的字符串长度;S1=L1÷(D+L1),D为所述编辑距离,L1为所述最长公共子序列长度。
5.根据权利要求1所述的智慧警务数据清洗方法,其特征在于,所述判断所述目标数据是否为时间序列型数据的步骤之后,包括:
当判定所述目标数据为时间序列型数据,则...
【专利技术属性】
技术研发人员:管连兵,
申请(专利权)人:贵州申瓯通信电子科技有限公司,
类型:发明
国别省市:贵州;52
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。