【技术实现步骤摘要】
追溯数据的抓取、去重及修复方法
本专利技术涉及数据追溯
,尤其涉及一种追溯数据的抓取、去重及修复方法。
技术介绍
目前市场上的追溯数据抓取技术,往往是针对某些特定产品生产厂商的追溯数据格式、内容而定制化开发的数据抓取模块。或者通过购买数据转换类软件,并通过定制化配置的方式来适配数据源。这种方式缺乏通用性,无法适配整个行业不同生产厂商的追溯数据源。然后通过在数据库中判断某些特定字段是否一致,进而识别出重复数据。此种方法效率较低,且单独比对某些字段来识别重复数据的方法相对来说较为片面,无法通过分析全要素数据来综合识别综合数据。而对于数据的更新往往是通过分析数据更新时间,用最近更新的数据来覆盖旧的数据。缺乏分析数据完整性的功能。
技术实现思路
本专利技术提供的追溯数据的抓取、去重及修复方法,能够进行数据的自我修复。本专利技术提供一种追溯数据抓取、去重及修复方法,包括:抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失 ...
【技术保护点】
1.一种追溯数据抓取、去重及修复方法,其特征在于:包括:/n抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码;/n将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值 ...
【技术特征摘要】
1.一种追溯数据抓取、去重及修复方法,其特征在于:包括:
抓取产品的产品追溯码和若干维度的产品数据;依据抓取的所述若干维度的产品数据计算产品特征值;依据所述产品数据的缺失情况计算缺失标志值;所述产品追溯码、产品特征值和所述缺失标志值组成产品识别码;
将所述产品识别码与数据库中已有的产品识别码进行比较;当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码相同时,比较所述产品识别码的产品特征值与所述数据库中已有的产品识别码的产品特征值进行比较,当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品特征值不同时,查看数据库中已有的产品识别码的缺失标志值,当所述缺失标志值显示为缺失时,将抓取的所述若干维度的产品数据补充进入数据库并重新计算特征值。
2.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:计算所述产品特征值包括如下步骤:
采用Hash算法计算每个产品数据的特征数据,
将所述特征数据组成矩阵,计算所述矩阵的本征值,所述矩阵的本征值即为所述特征值。
3.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:当所述产品识别码的产品追溯码与所述数据库中已有的产品识别码的产品追溯码不同时,将抓取的所述若干维度的产品数据存储进入数据库。
4.如权利要求1所述追溯数据抓取、去重及修复方法,其特征在于:当所述产品识别码的产品特征值与数据库中已有的产品识别码的产品...
【专利技术属性】
技术研发人员:陈娟,杨杰克,朱嘉心,李志彤,张百茵,闫颖,贺一丁,龚伟,
申请(专利权)人:中国电子信息产业发展研究院,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。