一种基于动态规划方法实现数据去重装置及方法制造方法及图纸

技术编号:17994580 阅读:60 留言:0更新日期:2018-05-19 11:46
本发明专利技术公开一种基于动态规划方法实现数据去重装置及方法。包括数据排序单元,数据分组单元,数据清洗单元,数据相似度分析单元,数据输出单元;对所有数据进行排序得到排序后数据;将相似的排序后数据编成数据组;对数据组内提取source和traget进行清洗得到清洗后数据;对所述清洗后数据进行相似度分析得到分析结果;判断分析结果是否合格,判断合格后,输出合格数据。本发明专利技术大大降低人工匹配相似度信息,减少人工成本,提高工作效率,也保证数据质量准确性、一致性、标准性、完整性。

A data De duplication device and method based on dynamic programming method

The invention discloses a data De duplication device and a method based on a dynamic programming method. It includes data sorting unit, data grouping unit, data cleaning unit, data similarity analysis unit, data output unit; sorting all data to get sorting post data; the similar sorting data are compiled into data groups; the cleaned data after extracting source and traget in the data group is obtained; and After cleaning, the data are analyzed by similarity analysis, and the results are analyzed. If the result is qualified, the qualified data can be output after the qualification is judged. The invention greatly reduces the information of artificial matching similarity, reduces the labor cost, improves work efficiency, and ensures the accuracy, consistency, standardization and integrity of the data quality.

【技术实现步骤摘要】
一种基于动态规划方法实现数据去重装置及方法
本专利技术涉及信息数据处理领域,具体涉及一种基于动态规划方法实现数据去重装置及方法。
技术介绍
客户资料、商家信息是企业决策的基础,如果企业对客户资料、商家信息掌握不全、不准,就会判断失误,决策就会出现偏差,同时,如果企业无法制定出正确的经营战略和策略,客户关系就会破裂,出现客户流失。所以,企业必须全面、准确、及时地掌握客户的信息,才能够有针对性地开展经营活动,从而使企业的营销成本降到最低。客户资料、商家信息是各个公司核心数据,商家信息的数据质量对业务开展至关重要。商家信息的来源很多,典型的包括采编维、外部数据获取、网络爬取等。正因如此,对于数据质量的把控难度较高。典型的数据质量问题包括:数据不全、数据有误、数据重复等,其中,数据重复问题一直是困扰日常业务开张的因素之一。举例说明:“名典咖啡朱雀店”与“名典咖啡(朱雀大街店)”二者实为一家店面,但系统却存在不同的记录。为了解决以上问题,本专利技术提出了一种基于动态规划方法实现数据去重装置及方法,借助智能的方法来排查这样的错误,从而有效地解放人工维护,可以大大提高数据稽核的效率,进而提升数据的本文档来自技高网...
一种基于动态规划方法实现数据去重装置及方法

【技术保护点】
一种基于动态规划方法实现数据去重装置,其特征在于,包括数据排序单元,数据分组单元,数据清洗单元,数据相似度分析单元,数据输出单元;所述数据排序单元用于将数据进行排序并传送给所述数据分组单元,所述数据分组单元用于对所述数据排序单元传送的数据分编成数据组,将所述数据组传送给所述数据清洗单元,所述数据清洗单元用于在所述数据组内提取source和traget进行清洗得到清洗后数据,将所述清洗后数据传送给所述数据相似度分析单元,所述数据相似度分析单元用于将所述清洗后数据进行相似度分析,经过多次数据清洗和相似度分析得到合格数据并发送给所述数据输出单元,所述数据输出单元将所述合格数据输出。

【技术特征摘要】
1.一种基于动态规划方法实现数据去重装置,其特征在于,包括数据排序单元,数据分组单元,数据清洗单元,数据相似度分析单元,数据输出单元;所述数据排序单元用于将数据进行排序并传送给所述数据分组单元,所述数据分组单元用于对所述数据排序单元传送的数据分编成数据组,将所述数据组传送给所述数据清洗单元,所述数据清洗单元用于在所述数据组内提取source和traget进行清洗得到清洗后数据,将所述清洗后数据传送给所述数据相似度分析单元,所述数据相似度分析单元用于将所述清洗后数据进行相似度分析,经过多次数据清洗和相似度分析得到合格数据并发送给所述数据输出单元,所述数据输出单元将所述合格数据输出。2.一种基于动态规划方法实现数据去重方法,其特征在于,包括步骤:(1)对所有数据进行排序得到排序后数据;(2)将相似的所述排序后数据编成数据组;(3)对所述数据组内提取source和traget进行清洗得到清洗后数据;(4)对所述清洗后数据进行相似度分析得到分析结果;(5)判断分析结果是否合格,合格...

【专利技术属性】
技术研发人员:余良波余国晶洪玉李华雷俊智
申请(专利权)人:号百信息服务有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1