当前位置: 首页 > 专利查询>谢国柱专利>正文

基于人工智能的互联网大数据处理方法及系统技术方案

技术编号:27612178 阅读:18 留言:0更新日期:2021-03-10 10:38
本公开实施例提供一种基于人工智能的互联网大数据处理方法及系统,通过预先配置的数据采集脚本对移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,然后从特征样本集合中提取出对应的画像特征向量,该画像特征向量可作为共享画像特征向量,并在共享画像特征向量的基础上分别提取第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域,由此进行画像标签生成,能够显著地提高标签生成速度和生成准确性。高标签生成速度和生成准确性。高标签生成速度和生成准确性。

【技术实现步骤摘要】
基于人工智能的互联网大数据处理方法及系统


[0001]本公开涉及大数据及人工智能
,具体而言,涉及一种基于人工智能的互联网大数据处理方法及系统。

技术介绍

[0002]随着移动互联网技术的快速发展,各种互联网访问行为增加,通过大数据采集可以为后续的用户画像分析提供数据支持。然而,传统的画像标签生成过程中,标签生成速度和生成准确性均有待改进。

技术实现思路

[0003]为了至少克服现有技术中的上述不足,本公开的目的在于提供一种基于人工智能的互联网大数据处理方法及系统,通过预先配置的数据采集脚本对移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,然后从特征样本集合中提取出对应的画像特征向量,该画像特征向量可作为共享画像特征向量,并在共享画像特征向量的基础上分别提取第一特征样本中的画像数据区域和第二特征样本中与画像数据区域对应的关键数据区域,由此进行画像标签生成,能够显著地提高标签生成速度和生成准确性。
[0004]第一方面,本公开提供一种基于人工智能的互联网大数据处理方法,应用于智能云服务平台,所述智能云服务平台与多个移动互联网终端通信连接,所述方法包括:通过预先配置的数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,所述特征样本集合包括第一特征样本和第二特征样本,所述第二特征样本为所述第一特征样本存在互联网业务关联的特征样本;根据预先配置的人工智能模型依次对所述特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于所述第一特征样本对应的画像特征向量,确定所述第一特征样本中的画像数据区域,根据与所述画像数据区域对应的目标画像数据区域,从所述第一特征样本对应的画像特征向量中提取出目标特征向量,并从所述第二特征样本对应的画像特征向量中提取出第一候选特征向量,所述第一候选特征向量对应的数据区域覆盖于所述目标特征向量对应的数据区域;从所述第一候选特征向量中查找与所述目标特征向量匹配的特征向量节点,并根据查找到的所述特征向量节点确定所述第二特征样本中与所述画像数据区域对应的关键数据区域;根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息。
[0005]在第一方面的一种可能的实现方式中,所述根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息的步骤,包括:
获取由所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域之间的共同数据区域所构成的目标数据区域;根据所述目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图,并确定每个数据索引目标在所述索引制约位图中的索引节点;根据每个数据索引目标的索引节点确定每个数据索引目标所在索引业务,将每个数据索引目标所在索引业务所组成的集合确定为汇总索引聚合业务,并对所述汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系;基于任意两个数据索引目标所在索引业务的相互主导关系,将所述汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别;当所述目标数据区域中加入热点数据索引目标时,确定所述热点数据索引目标在所述索引制约位图中的目标索引节点,并将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;将所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列中所包括的业务标签,作为所述移动互联网终端的画像标签信息。
[0006]在第一方面的一种可能的实现方式中,所述根据所述目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图的步骤,包括:获取所述目标数据区域中数据索引目标所形成的索引序列;根据每个数据索引目标在所述索引序列中的出现次数确定每个数据索引目标所在索引业务的聚合数量级别;对不同出现节点上的数据索引目标所在索引业务按照聚合数量级别进行降序排序;在第一预设出现节点上,将排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向确定为所述索引制约位图的第一维度轴向的第一趋向;将与所述第一维度轴向的第一趋向存在正向交叉的趋向确定为所述索引制约位图的第二维度轴向,所述第二维度轴向的第一趋向为第二预设出现节点上排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向。
[0007]在第一方面的一种可能的实现方式中,所述对所述汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系的步骤,包括:比较所述汇总索引聚合业务中任意两个数据索引目标的索引节点对应的数据量大小,当数据量大小满足第一条件或第二条件,则任意两个数据索引目标中的其中一个数据索引目标所在索引业务能够主导另一个数据索引目标所在索引业务;其中,所述第一条件为所述其中一个数据索引目标的第一趋向数据量大小数值大于所述另一个数据索引目标的第一趋向数据量大小数值且所述其中一个数据索引目标的第二趋向数据量大小数值大于或等于所述另一个数据索引目标的第二趋向数据量大小数值,所述第二条件为所述其中一个数据索引目标的第一趋向数据量大小数值等于所述另一个数据索引目标的第一趋向数据量大小数值且所述其中一个数据索引目标的第二趋向数据量大小数值大于所述另一个数据索引目标的第二趋向数据量大小数值。
[0008]在第一方面的一种可能的实现方式中,所述基于任意两个数据索引目标所在索引业务的相互主导关系,将所述汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别的步骤,包括:将所述汇总索引聚合业务作为第一聚合业务,并根据所述第一聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从所述第一聚合业务中确定出不被其它任意一个索引聚合业务主导的至少一个第一选定索引聚合业务;将所述至少一个第一选定索引聚合业务所组成的集合确定为第一级索引聚合业务序列;当第A聚合业务中除第A级索引聚合业务序列之外的其它索引聚合业务的范围大于或等于第一阈值时,将所述第A聚合业务中除所述第A级索引聚合业务序列之外的其它索引聚合业务确定为第A+1聚合业务;根据所述第A+1聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从所述第A+1聚合业务中确定出不被其它任意一个区域主导的至少一个第A+1选定索引聚合业务,将所述至少一个第A+1选定索引聚合业务所组成的集合确定为第A+1级索引聚合业务序列;其中,A=1,2,
……
,N,N为正整数,当A=N时,所述第A聚合业务中除所述第A级索引聚合业务序列之外的其它索引聚合业务的范围等于所述第一阈值,所述聚合数量级别对应的数值与所述聚合数量级别成反比关系。...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的互联网大数据处理方法,其特征在于,应用于智能云服务平台,所述智能云服务平台与多个移动互联网终端通信连接,所述方法包括:通过预先配置的数据采集脚本对所述移动互联网终端进行对应的数据采集识别操作,从采集的互联网大数据信息中获取特征样本集合,所述特征样本集合包括第一特征样本和第二特征样本,所述第二特征样本为所述第一特征样本存在互联网业务关联的特征样本,其中,存在互联网业务关联是指互联网业务之间存在访问关系;根据预先配置的人工智能模型依次对所述特征样本集合中的各特征样本进行画像特征解析,得到对应的画像特征向量,并基于所述第一特征样本对应的画像特征向量,确定所述第一特征样本中的画像数据区域,根据与所述画像数据区域对应的目标画像数据区域,从所述第一特征样本对应的画像特征向量中提取出目标特征向量,并从所述第二特征样本对应的画像特征向量中提取出第一候选特征向量,所述第一候选特征向量对应的数据区域覆盖于所述目标特征向量对应的数据区域;从所述第一候选特征向量中查找与所述目标特征向量匹配的特征向量节点,并根据查找到的所述特征向量节点确定所述第二特征样本中与所述画像数据区域对应的关键数据区域;根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息;其中,该预先配置的人工智能模型通过预先收集特征训练样本以及每个特征训练样本对应的画像特征向量进行训练获得;所述基于所述第一特征样本对应的画像特征向量,确定所述第一特征样本中的画像数据区域,根据与所述画像数据区域对应的目标画像数据区域,从所述第一特征样本对应的画像特征向量中提取出目标特征向量,并从所述第二特征样本对应的画像特征向量中提取出第一候选特征向量的步骤,包括:将第一特征样本对应的画像特征向量从第一特征样本中进行匹配,将各个匹配节点所在的单位区域的集合作为第一特征样本中的画像数据区域,从第一特征样本对应的画像特征向量中提取出与上述目标画像数据区域相对应的目标特征向量,并从第二特征样本对应的画像特征向量中提取出与上述目标画像数据区域相对应的第一候选特征向量,其中,与画像数据区域对应的目标画像数据区域是指与画像数据区域存在业务关联的目标画像数据区域;所述从所述第一候选特征向量中查找与所述目标特征向量匹配的特征向量节点,并根据查找到的所述特征向量节点确定所述第二特征样本中与所述画像数据区域对应的关键数据区域的步骤,包括:从第一候选特征向量中查找与目标特征向量中的各个特征向量数值匹配的特征向量节点,从第二特征样本中获取匹配查找到的特征向量节点的数据区域作为与画像数据区域对应的关键数据区域。2.根据权利要求1所述的基于人工智能的互联网大数据处理方法,其特征在于,所述根据所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据区域对应的关键数据区域生成所述移动互联网终端的画像标签信息的步骤,包括:获取由所述第一特征样本中的画像数据区域和所述第二特征样本中与所述画像数据
区域对应的关键数据区域之间的共同数据区域所构成的目标数据区域;根据所述目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图,并确定每个数据索引目标在所述索引制约位图中的索引节点;根据每个数据索引目标的索引节点确定每个数据索引目标所在索引业务,将每个数据索引目标所在索引业务所组成的集合确定为汇总索引聚合业务,并对所述汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系;基于任意两个数据索引目标所在索引业务的相互主导关系,将所述汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别;当所述目标数据区域中加入热点数据索引目标时,确定所述热点数据索引目标在所述索引制约位图中的目标索引节点,并将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;将所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列中所包括的业务标签,作为所述移动互联网终端的画像标签信息。3.根据权利要求1所述的基于人工智能的互联网大数据处理方法,其特征在于,所述根据所述目标数据区域中数据索引目标之间的索引制约关系建立索引制约位图的步骤,包括:获取所述目标数据区域中数据索引目标所形成的索引序列;根据每个数据索引目标在所述索引序列中的出现次数确定每个数据索引目标所在索引业务的聚合数量级别;对不同出现节点上的数据索引目标所在索引业务按照聚合数量级别进行降序排序;在第一预设出现节点上,将排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向确定为所述索引制约位图的第一维度轴向的第一趋向;将与所述第一维度轴向的第一趋向存在正向交叉的趋向确定为所述索引制约位图的第二维度轴向,所述第二维度轴向的第一趋向为第二预设出现节点上排序最后的数据索引目标所在索引业务到排序最前的数据索引目标所在索引业务的趋向。4.根据权利要求2所述的基于人工智能的互联网大数据处理方法,其特征在于,所述对所述汇总索引聚合业务中任意两个数据索引目标的索引节点进行比较,基于比较结果得到任意两个数据索引目标所在索引业务的相互主导关系的步骤,包括:比较所述汇总索引聚合业务中任意两个数据索引目标的索引节点对应的数据量大小,当数据量大小满足第一条件或第二条件,则任意两个数据索引目标中的其中一个数据索引目标所在索引业务能够主导另一个数据索引目标所在索引业务;其中,所述第一条件为所述其中一个数据索引目标的第一趋向数据量大小数值大于所述另一个数据索引目标的第一趋向数据量大小数值且所述其中一个数据索引目标的第二趋向数据量大小数值大于或等于所述另一个数据索引目标的第二趋向数据量大小数值,所述第二条件为所述其中一个数据索引目标的第一趋向数据量大小数值等于所述另一个数据索引目标的第一趋向数据量大小数值且所述其中一个数据索引目标的第二趋向数据量大小数值大于所述另一个数据索引目标的第二趋向数据量大小数值。
5.根据权利要求4所述的基于人工智能的互联网大数据处理方法,其特征在于,所述基于任意两个数据索引目标所在索引业务的相互主导关系,将所述汇总索引聚合业务划分为至少一个索引聚合业务序列,每个索引聚合业务序列具有不同的聚合数量级别的步骤,包括:将所述汇总索引聚合业务作为第一聚合业务,并根据所述第一聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从所述第一聚合业务中确定出不被其它任意一个索引聚合业务主导的至少一个第一选定索引聚合业务;将所述至少一个第一选定索引聚合业务所组成的集合确定为第一级索引聚合业务序列;当第A聚合业务中除第A级索引聚合业务序列之外的其它索引聚合业务的范围大于或等于第一阈值时,将所述第A聚合业务中除所述第A级索引聚合业务序列之外的其它索引聚合业务确定为第A+1聚合业务;根据所述第A+1聚合业务中任意两个数据索引目标所在索引业务的相互主导关系,从所述第A+1聚合业务中确定出不被其它任意一个区域主导的至少一个第A+1选定索引聚合业务,将所述至少一个第A+1选定索引聚合业务所组成的集合确定为第A+1级索引聚合业务序列;其中,A=1,2,
……
,N,N为正整数,当A=N时,所述第A聚合业务中除所述第A级索引聚合业务序列之外的其它索引聚合业务的范围等于所述第一阈值,所述聚合数量级别对应的数值与所述聚合数量级别成反比关系。6.根据权利要求5所述的基于人工智能的互联网大数据处理方法,其特征在于,所述将所述目标索引节点与所述至少一个索引聚合业务序列中的数据索引目标的索引节点进行比较,基于比较结果确定所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列的步骤,包括:比较所述目标索引节点对应的数值与第一数据索引目标的索引节点对应的数据量大小;当数据量大小满足第三条件或第四条件,则对每个索引聚合业务序列的聚合数量级别进行降级处理,并将所述热点数据索引目标所在索引业务确定为目标第一级索引聚合业务序列,所述目标第一级索引聚合业务序列为所述热点数据索引目标所在索引业务对应的目标索引聚合业务序列;其中,所述第一数据索引目标为第一级索引聚合业务序列中的数据索引目标,所述第三条件为所述目标索引节点的第二趋向数据量大小数值大于或等于所述第一数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值大于所述第一数据索引目标的第一趋向数据量大小数值,所述第四条件为所述目标索引节点的第二趋向数据量大小数值大于所述第一数据索引目标的第二趋向数据量大小数值且所述目标索引节点的第一趋向数据量大小数值等于所述第一数据索引目标的第一趋向数据量大小数值;比较所述目标索引节点对应的数值与第二数据索引目标的索引节点对应的数据量大小;当数据量大小满足第五条件或第六条件,则将所述热点数据索引目标所在索引业务确
定为第N+2级索引聚合业务序列,并将第N+2级索引聚合业务序列确定为所述热点...

【专利技术属性】
技术研发人员:谢国柱
申请(专利权)人:谢国柱
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1