一种跨境大数据的抓取及分析方法技术

技术编号:37983813 阅读:6 留言:0更新日期:2023-06-30 09:58
本发明专利技术提出了一种跨境大数据的抓取及分析方法,包括由数据收集、数据分类、数据筛选构成的数据获取模块,去噪筛选处理模块;并通过人工智能从境内境外数据中心抓取待分析数据;检测数据的类型和多种取值组合下的性能数据和功耗数据,通过数据比较、分析模块,基于所要求的指标,获得对应的计算任务的任务队列;获取待翻译文本以及所述待翻译文本的类别信息,类别信息匹配后在翻译记忆库中确定与所述待翻译文本对适配的待翻译文本,确定所述翻译记忆库中与所述目标语句对应的译文文本为所述待翻译语句对应的译文文本;增加了网络稳定性,可提高产品运营效率。可提高产品运营效率。

【技术实现步骤摘要】
一种跨境大数据的抓取及分析方法


[0001]本专利技术涉及数据处理
,尤其涉及一种跨境大数据的抓取及分析方法。

技术介绍

[0002]随着物联网技术的快速发展和各国之间的贸易往来的日益频繁,跨境物流行业也得到了迅速发展,但是由于跨境物流中间环节冗杂,运输周期较长,为了提高用户跨境商品的购买体验,需要获取用户购买商品的物流运输信息。
[0003]但目前的跨境电商平台只是体现了用户的购买功能,其体现的功能还不完善,如在用户的购物数据挖掘利用方面,目前的跨境电商平台对用户的购物数据利用率低,导致目前的跨境电商平台智能化水平低,产品运营效率,为了提高跨境电商平台对用户购物数据的利用率,有必要提出一种跨境大数据的抓取或分析的方法用于提高跨境电商对用户购物数据的挖掘、利用,从而提高产品运营效率。

技术实现思路

[0004]为解决上述技术问题,本专利技术提出了一种跨境大数据的抓取及分析方法,与人工智能相结合后减少了海外访问的响应时间,提升了网络爬虫的效率并还增加了网络稳定性,可提高产品运营效率,降低成本。
[0005]一种跨境大数据的抓取及分析方法,其特征在于:包括,由数据收集、数据分类、数据筛选构成的数据获取模块,且数据获取模块通过深度神经网络连接数据去噪筛选处理模块;并通过人工智能从境内数据中心将规则发送至境外数据中心;通过人工智能爬虫模块从所述境内数据中心爬取数据;
[0006]通过人工智能爬虫模块从境外数据中心抓取待分析数据;检测数据的类型和多种取值组合下的性能数据和功耗数据,通过数据比较、分析模块,基于所要求的指标,获得对应的计算任务的任务队列;获取待翻译文本以及所述待翻译文本的类别信息,类别信息匹配后在翻译记忆库中确定与所述待翻译文本对适配的待翻译文本,确定所述翻译记忆库中与所述目标语句对应的译文文本为所述待翻译语句对应的译文文本;
[0007]筛选异常信息,并对异常信息进行标记归档;且数据去噪筛选处理模块连接数据分类统计模块,数据分类统计模块连接数据比较、分析模块,获取算法模型针对数据的预测标注结果,以及对所述数据的实际标注结果;
[0008]对阙值数据进行分析,设置数据超标理由;以及生成评估报告模块、信用评估模块、评估报告与信用评估分数匹配度判定模块以及风险报告生成模块。
[0009]上述结构中:首先通过人工智能从境内数据中心将规则发送至境外数据中心,然后,数据获取模块通过人工智能爬虫模块从境外数据中心筛选出合适的待分析数据,并通过数据收集抓取待分析数据,并对待分析数据进行初步分类处理;
[0010]其次,通过数据去噪筛选处理模块对分类处理后的待分析数据进行去噪筛选;
[0011]再其次,通过数据分类统计模块检测数据的类型和多种取值组合下的性能数据和
功耗数据,并获取算法模型针对数据的预测标注结果,以及对所述数据的实际标注结果;
[0012]再其次,通过数据比较、分析模块,基于所要求的指标,获得对应的计算任务的任务队列、获取待翻译文本以及所述待翻译文本的类别信息,数据比较阶段:类别信息匹配后在翻译记忆库中确定与所述待翻译文本对适配的待翻译文本,确定所述翻译记忆库中与所述目标语句对应的译文文本为所述待翻译语句对应的译文文本;
[0013]数据分析阶段:获取算法模型针对数据的预测标注结果,以及对所述数据的实际标注结果,通过预设的阙值数据进行分析对比,设置数据超标理由,最后生成评估报告模块、信用评估模块、评估报告与信用评估分数匹配度判定模块以及风险报告生成模块。
[0014]作为本专利技术进一步改进,所述内容爬虫模块通过一致性哈希算法,将地址存储至地址等待队列,并且如果爬取成功,通过所述反馈模块,将爬取的所述网页内容存储至数据库。
[0015]本专利技术进一步改进,所述一致性哈希算法具体步骤如下;
[0016]首先求出memcached服务器的哈希值,并将其配置到0~232的圆上;
[0017]然后采用同样的方法求出存储数据的键的哈希值,并映射到相同的圆上;
[0018]然后从数据映射到的位置开始顺时针查找,将数据保存到找到的第一个服务器上,如果超过232仍然找不到服务器,就会保存到第一台memcached服务器上。
[0019]与现有技术相比,本专利技术的有益效果为:
[0020]本申请能够在保证安全的前提下,以得到的多种去噪后的性能数据为依据,兼顾物理设备的功耗和性能,与人工智能相结合后减少了海外访问的响应时间,提升了网络爬虫的效率并还增加了网络稳定性,可提高产品运营效率,降低成本。
附图说明
[0021]图1是跨境大数据的抓取及分析方法的原理框架示意图。
具体实施方式
[0022]下面结合附图与具体实施方式对本专利技术作进一步详细描述:
[0023]如图1所示:一种跨境大数据的抓取及分析方法,包括,由数据收集、数据分类、数据筛选构成的数据获取模块,且数据获取模块通过深度神经网络连接数据去噪筛选处理模块;并通过人工智能从境内数据中心将规则发送至境外数据中心;通过人工智能爬虫模块从所述境内数据中心爬取数据;
[0024]通过人工智能爬虫模块从境外数据中心抓取待分析数据;检测数据的类型和多种取值组合下的性能数据和功耗数据,通过数据比较、分析模块,基于所要求的指标,获得对应的计算任务的任务队列;获取待翻译文本以及所述待翻译文本的类别信息,类别信息匹配后在翻译记忆库中确定与所述待翻译文本对适配的待翻译文本,确定所述翻译记忆库中与所述目标语句对应的译文文本为所述待翻译语句对应的译文文本;
[0025]筛选异常信息,并对异常信息进行标记归档;且数据去噪筛选处理模块连接数据分类统计模块,数据分类统计模块连接数据比较、分析模块,获取算法模型针对数据的预测标注结果,以及对所述数据的实际标注结果;
[0026]对阙值数据进行分析,设置数据超标理由;以及生成评估报告模块、信用评估模
块、评估报告与信用评估分数匹配度判定模块以及风险报告生成模块。
[0027]本专利技术提出的一种跨境大数据的抓取及分析方法,包括,由数据收集、数据分类、数据筛选构成的数据获取模块,
[0028]首先通过人工智能从境内数据中心将规则发送至境外数据中心,然后,数据获取模块通过人工智能爬虫模块从境外数据中心筛选出合适的待分析数据,并通过数据收集抓取待分析数据,并对待分析数据进行初步分类处理;
[0029]其次,通过数据去噪筛选处理模块对分类处理后的待分析数据进行去噪筛选;
[0030]再其次,通过数据分类统计模块检测数据的类型和多种取值组合下的性能数据和功耗数据,并获取算法模型针对数据的预测标注结果,以及对所述数据的实际标注结果;
[0031]再其次,通过数据比较、分析模块,基于所要求的指标,获得对应的计算任务的任务队列、获取待翻译文本以及所述待翻译文本的类别信息,数据比较阶段:类别信息匹配后在翻译记忆库中确定与所述待翻译文本对适配的待翻译文本,确定所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种跨境大数据的抓取及分析方法,其特征在于:包括,由数据收集、数据分类、数据筛选构成的数据获取模块,且数据获取模块通过深度神经网络连接数据去噪筛选处理模块;并通过人工智能从境内数据中心将规则发送至境外数据中心;通过人工智能爬虫模块从所述境内数据中心爬取数据;通过人工智能爬虫模块从境外数据中心抓取待分析数据;检测数据的类型和多种取值组合下的性能数据和功耗数据,通过数据比较、分析模块,基于所要求的指标,获得对应的计算任务的任务队列;获取待翻译文本以及所述待翻译文本的类别信息,类别信息匹配后在翻译记忆库中确定与所述待翻译文本对适配的待翻译文本,确定所述翻译记忆库中与所述目标语句对应的译文文本为所述待翻译语句对应的译文文本;筛选异常信息,并对异常信息进行标记归档;且数据去噪筛选处理模块连接数据分类统计模块,数据分类统计模块连接数据比较、分析模块,获取算法模型针对数据的...

【专利技术属性】
技术研发人员:杨海花
申请(专利权)人:祐樘南京软件科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1