企业物料清洗服务系统及其数据清洗方法技术方案

技术编号:33038319 阅读:13 留言:0更新日期:2022-04-15 09:17
本发明专利技术公开了一种企业物料清洗服务系统及其数据清洗方法,数据采集模块,用于采集企业物料原始数据;规则库模块,根据企业自身需求定义数据清洗校验规则及权重占比;数据预处理模块,用于识别部分参数错误、缺失、重复、字形相近并根据余弦定理与编辑距离相似度计算方式进行计算、并输出数据排列结果;数据对比模块,根据数据对比计算采集的原始数据与规则库内数据的相似度,将相似度超过阈值的数据标识为相似数据;数据确认模块,将相似数据经过人工进行数据识别确认是否重复;数据仓库模块。本发明专利技术针对源数据不规范、不准确、不完整性的问题,采用数据分类、相似度匹配排序、再配合人工干预确认或者智能识别的方式,有效解决了数据清洗问题。数据清洗问题。数据清洗问题。

【技术实现步骤摘要】
企业物料清洗服务系统及其数据清洗方法


[0001]本专利技术涉及数据处理
,尤其涉及企业物料清洗服务系统及其数据清洗方法。

技术介绍

[0002]随着企业信息化建设的推进,各类业务系统中数据种类及数据量也在不断增多,对数据标准化、规范化管理越来越引起企业的重视,这其中企业物料数据管理算是数据标准化过程中非常重要的环节。
[0003]目前多数企业已建立了自己的ERP系统,但是在实际的应用过程中,还是出现了物料数据不准确、不一致、不规范等数据质量问题,这些数据对企业业务开展,数据共享等都造成较大影响,企业往往需要投入大量的的人力物力和时间去处理这类数据,针对这类问题,运用合理的数据清洗方式,提升数据质量就变的尤为重要。同时,人工清洗的物料数据,由于清洗人员水平业务水平参差不齐,对物料分类、描述理解不到位,在清洗物料的过程中,仅是采用原有的使用习惯对物料进行清洗,缺乏专业知识支撑,造成物料分类不合理、数据不规范。因此,如何提供一种企业物料清洗服务系统及其数据清洗方法是本领域技术人员亟需解决的问题。

技术实现思路

[0004]本专利技术的一个目的在于提出企业物料清洗服务系统及其数据清洗方法,本专利技术针对源数据不规范、不准确、不完整性的问题,采用数据分类、相似度匹配排序、再配合人工干预确认或者智能识别的方式,有效的解决了数据清洗问题,提高物料数据质量。
[0005]根据本专利技术实施例的一种企业物料清洗服务系统,包括:
[0006]数据采集模块,用于采集企业物料原始数据;
>[0007]规则库模块,根据企业自身需求定义数据清洗校验规则及权重占比;
[0008]数据预处理模块,用于识别部分参数错误、缺失、重复、字形相近并根据余弦定理与编辑距离相似度计算方式进行计算、并输出数据排列结果;
[0009]数据对比模块,根据数据对比计算采集的原始数据与规则库内数据的相似度,将相似度超过阈值的数据标识为相似数据;
[0010]数据确认模块,将相似数据经过人工进行数据识别确认是否重复;
[0011]数据仓库模块,将确认输出重复物料清单、以及将无重复干净数据流入数据仓库。
[0012]优选的,所述物料原始数据参数为物料描述,所述物料描述包括物料名称、物料规格、物料型号、物料材质、其他相应参数。
[0013]优选的,所述数据清洗校验规则包括大小写匹配、全角半角匹配、符号相似匹配、拼音相同汉字匹配、学名与俗称匹配、字符串相似匹配、字形相似匹配。
[0014]优选的,所述对比规则为分词、同义词、ES倒排索引、余弦定理、编辑距离。
[0015]优选的,所述余弦定理相是将两组数据进行分词,两组数据为两组向量,根据每个
向量里的字节替换为标量数据,再进行余弦夹角计算。
[0016]优选的,所述标量数据为词出现的频率。
[0017]优选的,所述数据清洗方法包括如下步骤:
[0018]S1、采集物料原始数据;
[0019]S2、将原始物料数据导入数据清洗系统,将物料描述分词,将分词后的数据运用余弦定理计算相似度,将相似度超过阈值的数据标识为相似数据;
[0020]S3、建立数据清洗模型,定义数据清洗校验规则及权重占比;
[0021]S4、系统按照设置的清洗规则执行清洗;
[0022]S5、系统自动清洗结果进行展示;
[0023]S6、根据展示匹配的数据进行智能识别,识别不准确、不规范的数据,如智能识别失败时进行人工的干预,并在页面进行标记操作,对于不准确数据进行参数修正,同时原参数存档保留记录;对于错误数据人工识别选择匹配正确数据、或进行彻底废弃,对于重复数据用户进行重复关联,并只保留一个有效数据,此过程连同S4重复进行,直至清洗出最终结果;
[0024]S7、完成S6后,展示最终清洗数据结果,并生成数据质量报告;
[0025]S8、清洗完成,可在系统中查询历史清洗记录,同时对清洗结果及质量报告进行导出。
[0026]本专利技术的有益效果是:
[0027](1)本方案提供了解决不准确、不规范物料数据的自动清洗加人工干预清洗方法,将待清洗物料数据导入至数据清洗系统,根据预设的数据参数权重,通过对每个物料数据进行相似度计算,以匹配出数据值中因个别参数缺失、错写、写法格式不一导致的数据,并按照数据属性进行相应排序展示,同时配合人工的匹配确认,实现数据清洗的目的;
[0028](2)本专利技术针对源数据不规范、不准确、不完整性的问题,采用数据分类、相似度匹配排序、再配合人工干预确认或者智能识别的方式,有效的解决了数据清洗问题,提高物料数据质量。
附图说明
[0029]附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:
[0030]图1为本专利技术提出的企业物料清洗服务系统及其数据清洗方法的系统流程图;
[0031]图2为本专利技术提出的企业物料清洗服务系统及其数据清洗方法的方法流程图。
具体实施方式
[0032]现在结合附图对本专利技术作进一步详细的说明。这些附图均为简化的示意图,仅以示意方式说明本专利技术的基本结构,因此其仅显示与本专利技术有关的构成。
[0033]参考图1,一种企业物料清洗服务系统,包括:
[0034]数据采集模块,用于采集企业物料原始数据;
[0035]物料原始数据参数为物料描述,物料描述包括物料名称、物料规格、物料型号、物料材质、其他相应参数。
[0036]规则库模块,根据企业自身需求定义数据清洗校验规则及权重占比;
[0037]数据清洗校验规则包括大小写匹配、全角半角匹配、符号相似匹配、拼音相同汉字匹配、学名与俗称匹配、字符串相似匹配、字形相似匹配。
[0038]数据预处理模块,用于识别部分参数错误、缺失、重复、字形相近并根据余弦定理与编辑距离相似度计算方式进行计算、并输出数据排列结果;
[0039]数据对比模块,根据数据对比计算采集的原始数据与规则库内数据的相似度,将相似度超过阈值的数据标识为相似数据;
[0040]对比规则为分词、同义词、ES倒排索引、余弦定理、编辑距离。
[0041]数据确认模块,将相似数据经过人工进行数据识别确认是否重复;
[0042]数据仓库模块,将确认输出重复物料清单、以及将无重复干净数据流入数据仓库,此方式可持续、反复进行,基于相似度不同算法展示罗列出不同相似物料展示清单,给予用户展示不同场景下数据,进而便于用户进行人工识别、处理,最终输出高质量无重复的数据,可最大化的识别疑似重复数据并输出便于人工识别的数据表,人工识别确认后输出高质量干净数据结果。
[0043]余弦定理相是将两组数据进行分词,两组数据为两组向量,根据每个向量里的字节替换为标量数据,再进行余弦夹角计算,标量数据为词出现的频率,本专利技术利用余弦定理来计算相似度,相对传统的图像相似程度中坐本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种企业物料清洗服务系统,其特征在于,包括:数据采集模块,用于采集企业物料原始数据;规则库模块,根据企业自身需求定义数据清洗校验规则及权重占比;数据预处理模块,用于识别部分参数错误、缺失、重复、字形相近并根据余弦定理与编辑距离相似度计算方式进行计算、并输出数据排列结果;数据对比模块,根据数据对比计算采集的原始数据与规则库内数据的相似度,将相似度超过阈值的数据标识为相似数据;数据确认模块,将相似数据经过人工进行数据识别确认是否重复;数据仓库模块,将确认输出重复物料清单、以及将无重复干净数据流入数据仓库。2.根据权利要求1所述的企业物料清洗服务系统,其特征在于,所述物料原始数据参数为物料描述,所述物料描述包括物料名称、物料规格、物料型号、物料材质、其他相应参数。3.根据权利要求1所述的企业物料清洗服务系统,其特征在于,所述数据清洗校验规则包括大小写匹配、全角半角匹配、符号相似匹配、拼音相同汉字匹配、学名与俗称匹配、字符串相似匹配、字形相似匹配。4.根据权利要求1所述的企业物料清洗服务系统,其特征在于,所述对比规则为分词、同义词、ES倒排索引、余弦定理、编辑距离。5.根据权利要求1所述的企业物料清洗服务系统,其特征在于,所述余弦定理相是将两组数据...

【专利技术属性】
技术研发人员:耿渭宾张复生
申请(专利权)人:陕西优百信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1