一种依据数字经济的多渠道数据采集方法及装置制造方法及图纸

技术编号:39254967 阅读:8 留言:0更新日期:2023-10-30 12:06
本发明专利技术涉及数字经济技术领域,具体公开了一种依据数字经济的多渠道数据采集方法及装置。通过网络爬虫对网络上的公开信息进行采集获取,再将采集到的数字经济数据信息进行筛分,然后对分类后的数字经济数据信息进行隐私化处理,而在隐私化处理的过程中需要先对数字经济数据信息进行脱敏化处理,并将脱敏处理后的信息进行合法化判断,然后将合法化的数据信息作为所需提取的数字经济数据信息,这样能够避免获取的数据能够规避用户隐私,进而能够避免造成获取信息侵权的问题。免造成获取信息侵权的问题。免造成获取信息侵权的问题。

【技术实现步骤摘要】
一种依据数字经济的多渠道数据采集方法及装置


[0001]本专利技术涉及数字经济
,尤其是一种依据数字经济的多渠道数据采集方法及装置。

技术介绍

[0002]数字经济是指以数字技术为基础,以数字化的方式生产、分配和消费商品和服务的经济活动。它涵盖了数字化的商业模式、数字化的生产方式、数字化的市场和数字化的交易过程等方面。数字经济的发展依赖于先进的信息和通信技术,包括计算机、互联网、移动通信、大数据、人工智能、物联网等。这些技术的迅速发展和广泛应用,改变了传统经济的组织方式和运行规则,推动了经济活动的数字化和智能化进程;而在数字经济数据采集的过程中通常采用网络爬虫对网络上公开的信息进行归类提取,但网络爬虫在获取数据过程中无法对用户隐私进行规避,进而造成获取信息侵权的问题。

技术实现思路

[0003]本专利技术的目的在于提供一种依据数字经济的多渠道数据采集方法,包括:获取网络爬虫抓取的数字经济数据信息,对所述数字经济数据信息进行筛分,得到筛分信息,其中,所述筛分信息包括产品信息、市场调研信息和市场价值信息;根据所述筛分信息对抓取的数字经济数据信息进行信息提取,得到隐私数据信息;获取所述隐私数据信息对应的数据链接,并对所述数据链接对应的数字经济数据信息进行脱敏化处理,得到脱敏化数字经济数据信息;判断所述脱敏化数字经济数据信息是否为合法数据;若脱敏化数字经济数据信息为合法数据,则将所述脱敏化数字经济数据作为数字经济数据信息;若脱敏化数字经济数据信息为非法数据,则将所述脱敏化数字经济数据删除。
[0004]作为优选的,所述对所述数字经济数据信息进行筛分,得到筛分信息的步骤,包括:将所述数字经济数据信息输入到分类模型中,并通过支持向量机提取得到产品区域范围信息;对所述产品区域范围信息进行逻辑回归化处理,提取得到产品细分信息;将所述产品细分信息输入到聚类模型中,并通过K均值聚类对所述产品细分信息进行分组提取,得到分组产品信息;对所述分组产品信息进行编码处理,得到产品编码数值;判断所述产品编码数值是否与预设的特征值相匹配;若匹配,则将产品编码数值输送到映射函数中,并通过指定逻辑生成得到产品信
息;若不匹配,则将产品编码数值定义为第一待定数据信息对应的数据编码数值。
[0005]作为优选的,所述则将产品编码数值定义为第一待定数据信息对应的数据编码数值步骤之后,包括:获取数字经济数据信息对应的预设数据编码数值;将所述数据编码数值和预设数据编码数值输入到市场相似度模型中,输出相似性值,其中,市场相似度模型的函数为:;其中,为相似性值,Ai为数据编码数值,Bi为预设数据编码数值;判断计算的相似性值是否等于预设值;若等于预设值,则将第一数据编码数值对应的信息标定为市场调研信息。
[0006]作为优选的,所述对所述数字经济数据信息进行筛分的步骤之前,包括:获取所述数字经济数据信息对应的公开时间,并根据所述公开时间获得数据结构信息;将所述数据结构信息输入到溯源模型中,得到节点数据信息;将所述节点数据信息与原始日志信息进行验证,得到原始数据存储信息;对所述原始数据存储信息进行提取,得到原始数据链;判断所述数字经济数据信息是否与所述原始数据存储信息的相匹配;若匹配,则对所述数字经济数据信息进行筛分。
[0007]作为优选的,所述数字经济数据信息进行筛分,得到筛分信息的步骤之后,包括:获取所述所需采集产品信息对应的产品单价;获取所需采集市场调研信息对应的当前市场销售额;获取所需采集市场调研信息对应的历史市场销售额;根据产品单价、当前市场销售额和历史市场销售额计算市场增长预估值,其中,计算公式为:A=e;其中,A为市场增长预估值,b为历史市场销售额,c为当前市场销售额,e为产品单价;作为优选的,所述根据所述筛分信息对抓取的数字经济数据信息进行信息提取,得到隐私数据信息的步骤,包括:获取所述数字经济数据信息对应的个人身份信息,对所述个人身份信息进行信息提取,得到身份数字;获取所述扰动基数;根据所述身份数字和所述扰动基数计算脱敏化数字经济数据信息对应的扰动数
值,其中,计算公式为:;其中,Q为扰动数值,n为身份数字,j为扰动基数,为预设可容忍偏差系数;根据所述扰动数值对所述脱敏化数字经济数据信息进行加密,得到隐私数据信息。
[0008]本申请还一种依据数字经济的多渠道数据采集装置,包括:第一获取模块,用于获取网络爬虫抓取的数字经济数据信息,对所述数字经济数据信息进行筛分,得到筛分信息,其中,所述筛分信息包括产品信息、市场调研信息和市场价值信息;第一提取模块,用于根据所述筛分信息对抓取的数字经济数据信息进行信息提取,得到隐私数据信息;第二获取模块,用于获取所述隐私数据信息对应的数据链接,并对所述数据链接对应的数字经济数据信息进行脱敏化处理,得到脱敏化数字经济数据信息;第一判断模块,用于判断所述脱敏化数字经济数据信息是否为合法数据;若脱敏化数字经济数据信息为合法数据,则将所述脱敏化数字经济数据作为数字经济数据信息;若脱敏化数字经济数据信息为非法数据,则将所述脱敏化数字经济数据删除。
[0009]作为优选的,所述第一获取模块,包括:第一获取单元,用于将所述数字经济数据信息输入到分类模型中,并通过支持向量机提取得到产品区域范围信息;第一处理单元,用于对所述产品区域范围信息进行逻辑回归化处理,提取得到产品细分信息;第一提取单元,用于将所述产品细分信息输入到聚类模型中,并通过K均值聚类对所述产品细分信息进行分组提取,得到分组产品信息;第二处理单元,用于对所述分组产品信息进行编码处理,得到产品编码数值;第一判断单元,用于判断所述产品编码数值是否与预设的特征值相匹配;若匹配,则将产品编码数值输送到映射函数中,并通过指定逻辑生成得到产品信息;若不匹配,则将产品编码数值定义为第一待定数据信息对应的第一数据编码数值。
[0010]本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。
[0011]本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述方法的步骤。
[0012]本申请的有益效果为:本专利技术通过网络爬虫对网络上的公开信息进行采集获取,
再将采集到的数字经济数据信息进行筛分,然后对分类后的数字经济数据信息进行隐私化处理,而在隐私化处理的过程中需要先对数字经济数据信息进行脱敏化处理,并将脱敏处理后的信息进行合法化判断,然后将合法化的数据信息作为所需提取的数字经济数据信息,这样能够避免获取的数据能够规避用户隐私,进而能够避免造成获取信息侵权的问题。
附图说明
[0013]图1为本申请一实施例的方法流程示意图。
[0014]图2为本申请一实施例的装置结构示意图。
[0015]图3为本申请一实施例的计算机设备内部结构示意图。
[0016]本申请目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0017]应当本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种依据数字经济的多渠道数据采集方法,其特征在于,包括:获取网络爬虫抓取的数字经济数据信息,对所述数字经济数据信息进行筛分,得到筛分信息,其中,所述筛分信息包括产品信息、市场调研信息和市场价值信息;根据所述筛分信息对抓取的数字经济数据信息进行信息提取,得到隐私数据信息;获取所述隐私数据信息对应的数据链接,并对所述数据链接对应的数字经济数据信息进行脱敏化处理,得到脱敏化数字经济数据信息;判断所述脱敏化数字经济数据信息是否为合法数据;若脱敏化数字经济数据信息为合法数据,则将所述脱敏化数字经济数据作为数字经济数据信息;若脱敏化数字经济数据信息为非法数据,则将所述脱敏化数字经济数据删除。2.根据权利要求1所述的依据数字经济的多渠道数据采集方法,其特征在于,所述对所述数字经济数据信息进行筛分,得到筛分信息的步骤,包括:将所述数字经济数据信息输入到分类模型中,并通过支持向量机提取得到产品区域范围信息;对所述产品区域范围信息进行逻辑回归化处理,提取得到产品细分信息;将所述产品细分信息输入到聚类模型中,并通过K均值聚类对所述产品细分信息进行分组提取,得到分组产品信息;对所述分组产品信息进行编码处理,得到产品编码数值;判断所述产品编码数值是否与预设的特征值相匹配;若匹配,则将产品编码数值输送到映射函数中,并通过指定逻辑生成得到产品信息;若不匹配,则将产品编码数值定义为第一待定数据信息对应的数据编码数值。3.根据权利要求2所述的依据数字经济的多渠道数据采集方法,其特征在于,所述则将产品编码数值定义为第一待定数据信息对应的数据编码数值步骤之后,包括:获取数字经济数据信息对应的预设数据编码数值;将所述数据编码数值和预设数据编码数值输入到市场相似度模型中,输出相似性值,其中,市场相似度模型的函数为:;其中,为相似性值,Ai为数据编码数值,Bi为预设数据编码数值;判断计算的相似性值是否等于预设值;若等于预设值,则将第一数据编码数值对应的信息标定为市场调研信息。4.根据权利要求1所述的依据数字经济的多渠道数据采集方法,其特征在于,所述对所述数字经济数据信息进行筛分的步骤之前,包括:获取所述数字经济数据信息对应的公开时间,并根据所述公开时间获得数据结构信息;将所述数据结构信息输入到溯源模型中,得到节点数据信息;
将所述节点数据信息与原始日志信息进行验证,得到原始数据存储信息;对所述原始数据存储信息进行提取,得到原始数据链;判断所述数字经济数据信息是否与所述原始数据存储信息的相匹配;若匹配,则对所述数字经济数据信息进行筛分。5.根据权利要求1所述的依据数字经济的多渠道数据采集方法,其特征在于,所述数字经济数据信息进行筛分,得到筛分信息的步骤之后,包括:获取所述所需采集产品信息对应的产品单价;获取所需采集市场调研信息对应的当前市场销售额;获取所需采集市...

【专利技术属性】
技术研发人员:丁新云杨作铭刘卫华
申请(专利权)人:深圳市伊登软件有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1