一种基于多源异构数据的绿色商品识别方法技术

技术编号:35068888 阅读:20 留言:0更新日期:2022-09-28 11:29
本发明专利技术涉及绿色商品识别技术领域,特别涉及一种基于多源异构数据的绿色商品识别方法,S1,对绿色商品信息进行数据采集;S2,对S1采集到的数据进行清洗;S3,对清洗后的数据定义绿色判定规则;S4,汇总每一类绿色商品数据源识别算法并建立数据匹配规则,将数据匹配算法封装为结构并提供对外请求访问;S5,建立数据预警机制以及数据安全防护机制。本发明专利技术的有益效果:建立一套集成算法来输出绿色判定标志。将对多类数据源进行定期更新,建立数据唯一识别算法,保障绿色商品的唯一及有效性。解决各应用渠道单独对接时的数据分析人力成本及数据整合技术难题。收集多源绿色商品信息后,采集数据使用频率,从不同维度监控绿色商品数据使用情况。用情况。用情况。

【技术实现步骤摘要】
一种基于多源异构数据的绿色商品识别方法


[0001]本专利技术涉及绿色商品识别
,特别涉及一种基于多源异构数据的绿色商品识别方法。

技术介绍

[0002]各种绿色商品数据渠道来源不一,判定规则不统一。
[0003]绿色产品的信息验证会常见在人们购买绿色商品的情况下,它应该会与人们的日常生活消费等息息相关,但目前并没有被人们广泛引用。这也跟目前绿色商品的数据难以检验、人们对绿色商品知识了解度较低,绿色商品相关的知识也没有被广泛的推进及主题宣传。
[0004]现阶段的绿色商品信息发布在各自官方网站,会出现以下几点问题:1.绿色商品查询途径相对分散,用户在购买绿色认定商品时,需要手动去相关绿色商品官方网站进行查询,操作比较繁琐,同时存在无法对绿色商品信息的准确性进行判断;2.现有的各大官方绿色商品网站上未开放共享接口给公众,电商平台上架的商品无法通过官方接口获取绿色认定标志;3.现有的各大官方绿色商品网站上公布的绿色商品信息,在绿色认定标志上的规则不一,用户在进行查询时,无法准确的判定是否为绿色认定商品;4.针对数据量比较大的绿色商品信息,存在网站查询慢,无法及时获取绿色商品信息的情况;除了上述问题,传统的数据存储方式针对存储数据量大、规则不一的情况不易维护,对数据情况监控不及时。
[0005]为此,本申请设计了一种基于多源异构数据的绿色商品识别方法,以解决上述问题。

技术实现思路

[0006]本专利技术为了弥补现有技术中的不足,提供了一种基于多源异构数据的绿色商品识别方法。<br/>[0007]一种基于多源异构数据的绿色商品识别方法,其特征在于,包括以下步骤:S1,对绿色商品信息进行数据采集;S2,对S1采集到的数据进行清洗;S3,对清洗后的数据定义绿色判定规则;S4,汇总每一类绿色商品数据源识别算法并建立数据匹配规则,将数据匹配算法封装为结构并提供对外请求访问;S5,建立数据预警机制以及数据安全防护机制。
[0008]进一步地,为了更好的实现本专利技术,所述S1具体为,针对每一类绿色商品信息的数
据源,提取采集规则,利用Lxml库和Scrapy框架技术,对每一类数据源进行采集入库。
[0009]进一步地,为了更好的实现本专利技术,所述S2具体为,采集的每一类绿色商品信息数据源,通过数据清洗算法,对入库的数据进行清洗、内容过滤、抽取等预处理后,利用Numpy库和Pandas库技术统一汇入到数据中心资源池。
[0010]进一步地,为了更好的实现本专利技术,所述S3具体为,对每一类绿色商品信息数据源的绿色判定规则进行定义,利用通存通取等技术算法,保障每一类数据经过规则算法后,输出绿色判定标志。
[0011]进一步地,为了更好的实现本专利技术,所述S4具体为,汇总每一类绿色商品数据源识别算法,利用Elastic技术,建立数据匹配规则,通过定义的判定算法,快速输出,将此核心算法封装为接口,提供对外请求访问。
[0012]进一步地,为了更好的实现本专利技术,所述对外请求访问出现因大量数据同时请求带来的堵塞及响应慢的情况时,利用Redis和RabbitMQ技术,对其他应用渠道的请求访问做快速分发响应。
[0013]进一步地,为了更好的实现本专利技术,所述S5具体为,S51,利用Celery技术,对每一类绿色商品信息数据源进行定期采集,建立数据预警机制,对平台内的数据进行数据流挖掘,关联分析及动态监控;S52,建立数据安全防护机制,保障数据资源池中的数据安全有效,防止非法数据篡改。
[0014]本专利技术的有益效果如下几点:1.目前每一类绿色商品认定规则及数据都存在于各自的网站平台上,如何将多类不同的绿色商品在同一数据中心池存储,将多源异构的数据在数据中心池进行融合,目前现有技术还没有进行解决。本申请技术将建立绿色商品数据中心池,收集多类绿色商品数据信息,对多类数据信息进行规整,存放至数据中心池。
[0015]2.绿色商品绿色程度的检验及真伪性判断相对专业,目前在部分绿色商品网站公开的数据中,没有说明判定规则,对于不了解绿色商品验证规则的用户是一个盲点,不同数据源的验证规则不同,目前现有的技术没有整合各类数据源,本申请技术将对多类数据源的绿色规则进行分析,定义,建立一套集成算法来输出绿色判定标志。
[0016]3.绿色商品的信息会不断的发生变更,用户群体无法确认绿色商品的最新动态变更。现有的技术中,存在同一类绿色商品信息重复性,无法确认绿色商品的有效期限。本申请技术将对多类数据源进行定期更新,通过分析规则,建立数据唯一识别算法,保障绿色商品的唯一及有效性。
[0017]4.现有的技术中,各应用渠道没有一个统一接口进行输出商品的绿色认定有效性,本申请技术在整合多类数据源后,公开提供共享接口,方便各应用渠道接入,解决各应用渠道单独对接时的数据分析人力成本及数据整合技术难题等。
[0018]5.现有的技术中,没有记录绿色商品数据使用频率,无法对绿色商品数据进行网络化管理及分析。本申请技术在收集多源绿色商品信息后,采集数据使用频率,从不同维度监控绿色商品数据使用情况。
附图说明
[0019]图1为本专利技术的基于多源异构数据的绿色商品识别方法的体系架构图。
具体实施方式
[0020]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本专利技术实施例的组件可以以各种不同的配置来布置和设计。
[0021]因此,以下对在附图中提供的本专利技术的实施例的详细描述并非旨在限制要求保护的本专利技术的范围,而是仅仅表示本专利技术的选定实施例。基于本专利技术的实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0022]应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。
[0023]在本专利技术的描述中,需要说明的是,术语“中”、“上”、“下”、“水平”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,或者是该专利技术产品使用时惯常摆放的方位或位置关系,仅是为了便于描述本专利技术和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此不能理解为对本专利技术的限制。此外,术语“第一”、“第二”等仅用于区分描述,而不能理解为指示或暗示相对重要性。
[0024]此外,术语“水平”、“竖直”等术语并不表示要求部件绝对水平或悬垂,而是可以稍微倾斜。如“水平”仅仅是指其方向相对“竖直”而言更加水平,并不是表示该结构一定要完全水平,而是可以稍微倾斜。
[0025]在本专利技术的描述中,需要说明的是,除非另有明确的规定和限定,术语“设置”、“相连”、“连接”应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或一体地连接。可以是机械连接,也可以是电性连接。可本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多源异构数据的绿色商品识别方法,其特征在于,包括以下步骤:S1,对绿色商品信息进行数据采集;S2,对S1采集到的数据进行清洗;S3,对清洗后的数据定义绿色判定规则;S4,汇总每一类绿色商品数据源识别算法并建立数据匹配规则,将数据匹配算法封装为结构并提供对外请求访问;S5,建立数据预警机制以及数据安全防护机制。2.根据权利要求1所述的基于多源异构数据的绿色商品识别方法,其特征在于:所述S1具体为,针对每一类绿色商品信息的数据源,提取采集规则,利用Lxml库和Scrapy框架技术,对每一类数据源进行采集入库。3.根据权利要求1所述的基于多源异构数据的绿色商品识别方法,其特征在于:所述S2具体为,采集的每一类绿色商品信息数据源,通过数据清洗算法,对入库的数据进行清洗、内容过滤、抽取等预处理后,利用Numpy库和Pandas库技术统一汇入到数据中心资源池。4.根据权利要求1所述的基于多源异构数据的绿色商品识别方法,其特征在于:所述S3具体为,对每一类绿色商品信...

【专利技术属性】
技术研发人员:任海玲王豇川邹丽杰贾丽丽谷彩婵路征王剑法文鹏杨立海袭保军王玫刘朋朋
申请(专利权)人:高质标准化研究院山东有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1