【技术实现步骤摘要】
基于移动互联网的大数据采集方法及人工智能云服务平台
本公开涉及大数据
,具体而言,涉及一种基于移动互联网的大数据采集方法及人工智能云服务平台。
技术介绍
随着移动互联网技术的快速发展,各种互联网访问行为增加,通过大数据采集可以为后续的用户画像分析提供数据支持。然而,传统的大数据采集方案中可能会存在诸多的数据采集识别节点的噪声问题,尤其是在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致采集数据的噪声引入,从而影响大数据采集过程的采集针对性和准确性。
技术实现思路
为了至少克服现有技术中的上述不足,本公开的目的在于提供一种基于移动互联网的大数据采集方法及人工智能云服务平台,能够根据数据采集识别节点信息对数据采集脚本进行配置后,再执行大数据采集,从而可以在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,进而提高大数据采集过程中的采集针对性和准确性,从一定程度上避免在大数据采集过程中可能会由于数据采集识别节点的噪声问题导致的采集数据的噪声引入。第一方面, ...
【技术保护点】
1.一种基于移动互联网的大数据采集方法,其特征在于,应用于人工智能云服务平台,所述人工智能云服务平台与多个移动互联网终端通信连接,所述方法包括:/n在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息;/n根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;/n通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据 ...
【技术特征摘要】
1.一种基于移动互联网的大数据采集方法,其特征在于,应用于人工智能云服务平台,所述人工智能云服务平台与多个移动互联网终端通信连接,所述方法包括:
在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息;
根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息;
通过大数据采集控件将所述数据采集识别节点信息关联到所述页面用户行为信息的数据爬取流的数据上传路径的数据采集脚本中,并根据所述数据采集识别节点信息对所述数据采集脚本进行配置后,执行大数据采集;
在大数据采集过程中通过所述数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,其中,在进行数据采集识别操作的过程中,通过所述数据上传路径持续根据获得的数据采集识别节点信息对所述数据采集脚本进行更新配置。
2.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述在从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息后,确定与所述页面用户行为信息相匹配的互联网功能业务信息的步骤,包括:
从互联网访问进程中获得需要进行大数据采集的扩展页面对象对应的页面用户行为信息,所述页面用户行为信息包括参考互联网功能业务、业务采集板块数量、用户行为权限区间以及用户行为扩展权限区间;
确定所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值;
根据所述页面用户行为信息的业务采集板块数量/业务节点区间值和业务采集板块数量/用户行为扩展权限区间值确定与所述页面用户行为信息相匹配的互联网功能业务信息。
3.根据权利要求1所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述互联网功能业务信息以及与所述互联网功能业务信息相对应的主题域信息生成对应的数据采集识别节点信息的步骤,包括:
根据与所述互联网功能业务信息相对应的主题域信息确定所述互联网功能业务信息中每个业务重要优先级大于设定优先级的目标互联网功能业务,以及以所述目标互联网功能业务为业务基础区域的第一识别对象和第二识别对象,所述第一识别对象的模拟数据采集进程与所述第二识别对象的模拟数据采集进程不重合,并且相互之间存在逻辑关联;
确定所述第一识别对象中符合第一目标要求的主题域字段对象,根据所述符合第一目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第一识别对象对应的第一滑动组件信息;其中,所述符合第一目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;
确定所述第二识别对象中符合第二目标要求的主题域字段对象,根据所述符合第二目标要求的主题域字段对象的源数据表字段信息与关联的预设字段验证信息之间的多级来源匹配信息的字段匹配定义元素,确定所述第二识别对象对应的第二滑动组件信息;其中,所述符合第二目标要求的主题域字段对象为源数据表字段信息匹配于所述关联的预设字段验证信息的主题域字段对象;
根据所述第一识别对象对应的第一滑动组件信息,得到所述主题域字段对象在每个第一模拟数据采集进程的回调采集模拟参数,并根据所述第二识别对象中的第二滑动组件信息,得到所述主题域字段对象在每个第二模拟数据采集进程的回调采集模拟参数;
根据所述每个第一模拟数据采集进程和每个第二模拟数据采集进程的回调采集模拟参数,分别对所述主题域字段对象在每个模拟数据采集进程进行模拟采集索引,得到每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息;
根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息;
根据所述模拟采集索引信息,生成对应的数据采集识别节点信息。
4.根据权利要求3所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息得到对应的模拟采集索引信息的步骤,包括:
确定所述每个第一模拟数据采集进程的第一模拟采集索引信息和每个第二模拟数据采集进程的第二模拟采集索引信息之间的重叠模拟采集索引信息;
将所述重叠模拟采集索引信息确定为所述对应的模拟采集索引信息。
5.根据权利要求3所述的基于移动互联网的大数据采集方法,其特征在于,所述根据所述模拟采集索引信息,生成对应的数据采集识别节点信息的步骤,包括:
针对所述模拟采集索引信息中的任一模拟采集索引分段,确定所述任一模拟采集索引分段的索引参数以及数据采集识别特征,其中,所述任一模拟采集索引分段的数据采集识别特征用于表征所述任一模拟采集索引分段的采集前置属性特征和/或采集节点特征;
根据所述索引参数以及所述数据采集识别特征,确定数据采集识别参数的特征,配置总数据采集识别参数的特征,并根据所述数据采集识别参数的特征和所述总数据采集识别参数的特征,确定所述任一模拟采集索引分段的设定索引节点的索引节点参数;
根据确定出的所述任一模拟采集索引分段设定索引节点的索引节点参数,基于所述任一模拟采集索引分段的各索引节点的索引节点参数映射得到所述任一模拟采集索引分段的各索引节点的目标索引节点参数;
通过不断调整总数据采集识别参数的特征,并基于数据采集识别参数的特征迭代计算所述任一模拟采集索引分段的各索引节点的目标索引节点参数,直到得到的所述任一模拟采集索引分段的平均目标索引节点参数与索引参数的相对误差的绝对值不高于设定误差值;
根据确定出的所述模拟采集索...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。