一种基于优化的编辑距离的数据清洗方法及系统技术方案

技术编号:27618908 阅读:30 留言:0更新日期:2021-03-10 10:55
本发明专利技术提供一种基于优化的编辑距离的数据清洗方法及系统,其中,方法包括:通过预设方法获取多个原始数据,对各原始数据进行语义识别;接收用户输入的查询关键字;根据预设算法和/或预设映射关系和/或语义识别结果基于查询关键字对各原始数据进行在线类Excel数据清洗;在数据清洗过程中,用户可对其进行人工干预。本发明专利技术的基于优化的编辑距离的数据清洗方法及系统,极大的提高了清洗效率,降低了数据清洗门槛,提升了数据清洗的准确性。提升了数据清洗的准确性。提升了数据清洗的准确性。

【技术实现步骤摘要】
一种基于优化的编辑距离的数据清洗方法及系统


[0001]本专利技术涉及数据清洗
,特别涉及一种基于优化的编辑距离的数据清洗方法及系统。

技术介绍

[0002]目前,传统的数据清洗方法大多采用基于编辑距离的近似字符串匹配算法,其大多基于签名,采用索引结构来支持近似字符串匹配;但是,随着需进行数据清洗的信息量不断增长时,利用该近似字符串匹配算法经常会出现匹配错误问题,使得数据清洗效率降低。

技术实现思路

[0003]本专利技术目的之一在于提供了一种基于优化的编辑距离的数据清洗方法及系统。
[0004]本专利技术实施例提供的一种基于优化的编辑距离的数据清洗方法,包括:
[0005]通过预设方法获取多个原始数据,对各原始数据进行语义识别;
[0006]接收用户输入的查询关键字;
[0007]根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗;
[0008]在数据清洗过程中,接收用户输入的设置指令并执行对应操作。
[0009]优选的,通过预设方法获取多个原始数据,具体包括:
[0010]从预设业务系统中抽取原始数据,
[0011]和/或,
[0012]访问ODBC数据源、XML数据源、Excel表格和文本报告件中一种或多种结合获得原始数据。
[0013]优选的,根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗,具体包括:
[0014]根据预设算法判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;
[0015]和/或,
[0016]根据预设映射关系判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;
[0017]和/或,
[0018]根据语义识别结果判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;
[0019]上述过程均采用类Excel处理方式。
[0020]优选的,所述接收用户输入的设置指令并执行对应操作,具体包括:
[0021]在数据清洗过程中,接收用户输入的对标准模板属性的值列表范围和上下限值进行设置的指令,并执行对应操作;
[0022]和/或,
[0023]接收用户对原始数据批量指定类别和指派责任人的设置指令,并执行对应操作;
[0024]和/或,
[0025]接收用户对清洗规则、匹配规则和匹配策略中一种或多种结合进行设置的指令,并执行对应操作。
[0026]优选的,一种基于优化的编辑距离的数据清洗方法,还包括:
[0027]接收用户输入的定义操作生成检验项目列表或每隔预设的时间间隔根据预设生成规则生成检验项目列表;
[0028]所述检验项目列表包括:预设算法、预设映射关系和语义识别结果中一种或多种结合;
[0029]从所述检验项目列表中选取任一检验项目作为目标检验项目;
[0030]获取预设的历史数据库中的历史运行记录;
[0031]遍历所述历史运行记录中各组记录,选取其中涉及所述目标检验项目的记录组合作为待排序记录;
[0032]计算所述待排序记录各记录的排序指数:
[0033][0034]σ
i
为待排序记录中第i个记录的排序指数,t
i
为待排序记录中第i个记录中该目标检验项目对应的使用时长,T
i
为待排序记录中第i个记录对应的总时间长度,e
i
为待排序记录中第i个记录中涉及检验项目的总个数,r0为该目标检验项目对应的经验权重值,n为待排序记录中各记录的总个数,k为历史运行记录中各记录的总组数,j1、j2、j3和j4为预设的权重值,τ为预设的误差系数;
[0035]将待排序记录中各记录按所述排序指数从大到小排序,选取待排序记录中前γ个记录组合作为待检验序列;
[0036]计算所述待检验序列各记录的检验值:
[0037][0038]其中,μ
c
为待检验序列中第c个记录的检验值,p
c
为待检验序列中第c个记录中的数据清洗总时长,E
c
为待检验序列中第c个记录中涉及检验项目的总个数,ρ为预设的确定系数,A
c
为待检验序列中第c个记录中进行处理的次数,B
cm
为待检验序列中第c个记录中使用该目标检验项目进行第m次处理花费的时间,D为待检验序列中第c个记录中使用该目标检验项目进行处理的总次数,L
c
为待检验序列中第c个记录中原始数据的大小;
[0039]当待检验序列中大于等于预设检验阈值的对应记录的个数大于等与预设个数阈值时,将该检验项目列入可选择列表,否则将其列入不可选择列表;
[0040]将检验项目列表中的检验项目按其对应检验值按从大到小进行排序,选取前μ个检验项目组合作为获得推荐列表;
[0041]在数据清洗过程中,若用户进行的人工干预操作存在于所述不可选择列表中时,对其进行提醒,并向其推送所述推荐列表供用户参考。
[0042]优选的,所述个数阈值根据以下预设的方法进行调整,包括:
[0043][0044][0045]其中,V为调整后的个数阈值,int为取整函数,ε为预设的调节系数,v0为调整前的个数阈值,N为检验项目列表中检验项目的总数目,k为历史运行记录中各记录的总组数,Z
h
为检验项目列表中第h个检验项目在历史运行记录中涉及记录的组数,w为预设的分隔阈值,G为预设的比较阈值,max为取极大值函数,min为取极小值函数,and为和,or为或。
[0046]本专利技术实施例提供的一种基于优化的编辑距离的数据清洗系统,包括:
[0047]获取模块,通过预设方法获取多个原始数据;
[0048]语义识别模块,用于对各原始数据进行语义识别;
[0049]第一接收模块,用于接收用户输入的查询关键字;
[0050]数据清洗模块,用于根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗;
[0051]第二接收模块,用于在数据清洗过程中,接收用户输入的设置指令并执行对应操作。
[0052]优选的,所述获取模块执行包括如下操作:
[0053]从预设业务系统中抽取原始数据,
[0054]和/或,
[0055]访问ODBC数据源、XML数据源、Excel表格和文本报告件中一种或多种结合获得原始数据。
[0056]优选的,所述数据清洗模块执行包括如下操作:
[0057]根据预设算法判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;
[0058]和/或,
[0059]根据预设映射关系判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;
[0060]和/或,<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于优化的编辑距离的数据清洗方法,其特征在于,包括:通过预设方法获取多个原始数据,对各原始数据进行语义识别;接收用户输入的查询关键字;根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗;在数据清洗过程中,接收用户输入的设置指令并执行对应操作。2.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法,其特征在于,所述通过预设方法获取多个原始数据,具体包括:从预设业务系统中抽取原始数据,和/或,访问ODBC数据源、XML数据源、Excel表格和文本报告件中一种或多种结合获得原始数据。3.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法,其特征在于,所述根据预设算法和/或预设映射关系和/或语义识别结果基于所述查询关键字对各原始数据进行在线类Excel数据清洗,具体包括:根据预设算法判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;和/或,根据预设映射关系判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;和/或,根据语义识别结果判断每个原始数据与所述查询关键字是否匹配,若匹配,则输出;上述过程均采用类Excel处理方式。4.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法,其特征在于,所述接收用户输入的设置指令并执行对应操作,具体包括:在数据清洗过程中,接收用户输入的对标准模板属性的值列表范围和上下限值进行设置的指令,并执行对应操作;和/或,接收用户对原始数据批量指定类别和指派责任人的设置指令,并执行对应操作;和/或,接收用户对清洗规则、匹配规则和匹配策略中一种或多种结合进行设置的指令,并执行对应操作。5.如权利要求1所述的一种基于优化的编辑距离的数据清洗方法,其特征在于,还包括:接收用户输入的定义操作生成检验项目列表或每隔预设的时间间隔根据预设生成规则生成检验项目列表;所述检验项目列表包括:预设算法、预设映射关系和语义识别结果中一种或多种结合;从所述检验项目列表中选取任一检验项目作为目标检验项目;获取预设的历史数据库中的历史运行记录;遍历所述历史运行记录中各组记录,选取其中涉及所述目标检验项目的记录组合作为待排序记录;
计算所述待排序记录各记录的排序指数:σ
i
为待排序记录中第i个记录的排序指数,t
i
为待排序记录中第i个记录中该目标检验项目对应的使用时长,T
i
为待排序记录中第i个记录对应的总时间长度,e
i
为待排序记录中第i个记录中涉及检验项目的总个数,r0为该目标检验项目对应的经验权重值,n为待排序记录中各记录的总个数,k为历史运行记录中各记录的总组数,j1、j2、j3和j4为预设的权重值,τ为预设的误差系数;将待排序记录中各记录按所述排序指数从大到小排序,选取待排序记录中前γ个记录组合作为待检验序列;计算所述待检验序列各记录的检验值:其中,μ
c
为待检验序列中第c个记录的检验值,p
c
为待检验序列中第c个记录中的数据清洗总时长,E
c

【专利技术属性】
技术研发人员:金震李明王兆君曹朝辉杨海建
申请(专利权)人:北京三维天地科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1