一种基于优化的编辑距离的数据清洗方法及系统技术方案

技术编号：27618908 阅读：30 留言：0更新日期：2021-03-10 10:55

本发明专利技术提供一种基于优化的编辑距离的数据清洗方法及系统，其中，方法包括：通过预设方法获取多个原始数据，对各原始数据进行语义识别；接收用户输入的查询关键字；根据预设算法和/或预设映射关系和/或语义识别结果基于查询关键字对各原始数据进行在线类Excel数据清洗；在数据清洗过程中，用户可对其进行人工干预。本发明专利技术的基于优化的编辑距离的数据清洗方法及系统，极大的提高了清洗效率，降低了数据清洗门槛，提升了数据清洗的准确性。提升了数据清洗的准确性。提升了数据清洗的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于优化的编辑距离的数据清洗方法及系统

[0001]本专利技术涉及数据清洗
，特别涉及一种基于优化的编辑距离的数据清洗方法及系统。

技术介绍

[0002]目前，传统的数据清洗方法大多采用基于编辑距离的近似字符串匹配算法，其大多基于签名，采用索引结构来支持近似字符串匹配；但是，随着需进行数据清洗的信息量不断增长时，利用该近似字符串匹配算法经常会出现匹配错误问题，使得数据清洗效率降低。

技术实现思路

[0003]本专利技术目的之一在于提供了一种基于优化的编辑距离的数据清洗方法及系统。
[0004]本专利技术实施例提供的一种基于优化的编辑距离的数据清洗方法，包括：
[0005]通过预设方法获取多个原始数据，对各原始数据进行语义识别；
[0006]接收用户输入的查询关键字；
[0007]根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗；
[0008]在数据清洗过程中，接收用户输入的设置指令并执行对应操作。
[0009]优选的，通过预设方法获取多个原始数据，具体包括：
[0010]从预设业务系统中抽取原始数据，
[0011]和/或，
[0012]访问ODBC数据源、XML数据源、Excel表格和文本报告件中一种或多种结合获得原始数据。
[0013]优选的，根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗，具体...

【技术保护点】

【技术特征摘要】
1.一种基于优化的编辑距离的数据清洗方法，其特征在于，包括：通过预设方法获取多个原始数据，对各原始数据进行语义识别；接收用户输入的查询关键字；根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗；在数据清洗过程中，接收用户输入的设置指令并执行对应操作。2.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法，其特征在于，所述通过预设方法获取多个原始数据，具体包括：从预设业务系统中抽取原始数据，和/或，访问ODBC数据源、XML数据源、Excel表格和文本报告件中一种或多种结合获得原始数据。3.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法，其特征在于，所述根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗，具体包括：根据预设算法判断每个原始数据与所述查询关键字是否匹配，若匹配，则输出；和/或，根据预设映射关系判断每个原始数据与所述查询关键字是否匹配，若匹配，则输出；和/或，根据语义识别结果判断每个原始数据与所述查询关键字是否匹配，若匹配，则输出；上述过程均采用类Excel处理方式。4.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法，其特征在于，所述接收用户输入的设置指令并执行对应操作，具体包括：在数据清洗过程中，接收用户输入的对标准模板属性的值列表范围和上下限值进行设置的指令，并执行对应操作；和/或，接收用户对原始数据批量指定类别和指派责任人的设置指令，并执行对应操作；和/或，接收用户对清洗规则、匹配规则和匹配策略中一种或多种结合进行设置的指令，并执行对应操作。5.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法，其特征在于，还包括：接收用户输入的定义操作生成检验项目列表或每隔预设的时间间隔根据预设生成规则生成检验项目列表；所述检验项目列表包括：预设算法、预设映射关系和语义识别结果中一种或多种结合；从所述检验项目列表中选取任一检验项目作为目标检验项目；获取预设的历史数据库中的历史运行记录；遍历所述历史运行记录中各组记录，选取其中涉及所述目标检验项目的记录组合作为待排序记录；
计算所述待排序记录各记录的排序指数：σ
i
为待排序记录中第i个记录的排序指数，t
i
为待排序记录中第i个记录中该目标检验项目对应的使用时长，T
i
为待排序记录中第i个记录对应的总时间长度，e
i
为待排序记录中第i个记录中涉及检验项目的总个数，r0为该目标检验项目对应的经验权重值，n为待排序记录中各记录的总个数，k为历史运行记录中各记录的总组数，j1、j2、j3和j4为预设的权重值，τ为预设的误差系数；将待排序记录中各记录按所述排序指数从大到小排序，选取待排序记录中前γ个记录组合作为待检验序列；计算所述待检验序列各记录的检验值：其中，μ
c
为待检验序列中第c个记录的检验值，p
c
为待检验序列中第c个记录中的数据清洗总时长，E
c

【专利技术属性】
技术研发人员：金震，李明，王兆君，曹朝辉，杨海建，
申请(专利权)人：北京三维天地科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人