样本数据生成、模型训练以及确定设备关联关系的方法技术

技术编号:39161843 阅读:29 留言:0更新日期:2023-10-23 15:02
本公开提供了一种样本数据生成方法,涉及人工智能技术领域,尤其涉及机器学习、深度学习、数据挖掘和数据处理技术领域。具体实现方案为:获取与M个设备各自关联的网络使用数据、运动数据以及环境数据,网络使用数据包括对象标识,M为大于1的整数;根据对象标识对M个设备进行配对,得到N个设备对,N为大于1的整数;针对每个设备对,分别根据网络使用数据、运动数据以及环境数据,确定设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度,并根据网络使用相似度、运动相似度和环境相似度,确定设备对的特征;以及将设备对作为样本,设备对的特征作为样本的特征,得到样本数据。得到样本数据。得到样本数据。

【技术实现步骤摘要】
样本数据生成、模型训练以及确定设备关联关系的方法


[0001]本公开涉及人工智能
,尤其涉及机器学习、深度学习、数据挖掘和数据处理
更具体地,本公开提供了一种样本数据生成方法、机器学习模型的训练方法、确定设备关联关系的方法、数据库生成方法、信息推荐方法、装置、电子设备和存储介质。

技术介绍

[0002]随着电子设备的大量普及应用,电子设备能够支持的应用越来越多,功能越来越强大,电子设备向着多样化、个性化的方向发展,成为用户生活中不可缺少的电子用品。

技术实现思路

[0003]本公开提供了一种样本数据生成方法、机器学习模型的训练方法、确定设备关联关系的方法、数据库生成方法、信息推荐方法、装置、设备以及存储介质。
[0004]根据第一方面,提供了一种样本数据生成方法,该方法包括:获取与M个设备各自关联的网络使用数据、运动数据以及环境数据,其中,网络使用数据包括对象标识,M为大于1的整数;根据对象标识对M个设备进行配对,得到N个设备对,N为大于1的整数;针对每个设备对,分别根据网络使用数据、运动数据以及环境数据,本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种样本数据生成方法,包括:获取与M个设备各自关联的网络使用数据、运动数据以及环境数据,其中,所述网络使用数据包括对象标识,M为大于1的整数;根据所述对象标识对所述M个设备进行配对,得到N个设备对,N为大于1的整数;针对每个设备对,分别根据所述网络使用数据、运动数据以及环境数据,确定所述设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度,并根据所述网络使用相似度、运动相似度和环境相似度,确定所述设备对的特征;以及将所述设备对作为样本,设备对的特征作为所述样本的特征,得到样本数据。2.根据权利要求1所述的方法,其中,所述样本包括正样本和负样本;所述根据所述对象标识对所述M个设备进行配对,得到N个设备对包括:将所述对象标识一致的两个设备确定为第一设备对;以及将所述对象标识不一致的两个设备确定为第二设备对;所述将所述设备对作为样本,设备对的特征作为所述样本的特征,得到样本数据包括:将所述第一设备对作为正样本,第一设备对的特征作为所述正样本的特征,并将所述第二设备对作为负样本,将所述第二设备对的特征作为所述负样本的特征,得到所述样本数据。3.根据权利要求1或2所述的方法,其中,所述网络使用数据包括IP地址数据、地理位置数据、网络活动数据、应用程序使用数据以及设备对中两个设备之间的数据传输情况中的至少之一;所述确定所述设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度包括以下操作中的至少之一:针对每个设备对,根据预设时段内所述设备对中两个设备各自的IP地址序列,计算所述两个设备的IP地址相似度;根据所述预设时段内所述设备对中两个设备各自的地理位置序列,计算所述两个设备的地理位置相似度;根据所述预设时段内所述设备对中两个设备各自的网络活动的标签序列,计算所述两个设备的网络活动相似度;根据所述预设时段内所述设备对中两个设备各自的应用程序标识序列,计算所述两个设备的应用程序使用相似度;根据所述预设时段内所述设备对中两个设备之间的数据传输情况,确定所述两个设备的数据同步相似度。4.根据权利要求1至3中任一项所述的方法,其中,所述运动数据包括速度数据、姿态数据以及轨迹数据中的至少之一;所述确定所述设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度包括以下操作中的至少之一:针对每个设备对,根据预设时段内所述设备对中两个设备各自的速度序列,计算所述两个设备的速度相似度;根据所述预设时段内所述设备对中两个设备各自的姿态序列,计算所述两个设备的姿态相似度;根据所述预设时段内所述设备对中两个设备各自的轨迹,计算所述两个设备的轨迹相似度。
5.根据权利要求1至4中任一项所述的方法,其中,所述环境数据包括光线亮度数据、温度数据以及湿度数据中的至少之一;所述确定所述设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度包括以下操作中的至少之一:针对每个设备对,根据预设时段内所述设备对中两个设备各自的光线亮度序列,计算所述两个设备的光线亮度相似度;根据所述预设时段内所述设备对中两个设备各自的温度序列,计算所述两个设备的温度相似度;根据所述预设时段内所述设备对中两个设备各自的湿度序列,计算所述两个设备的湿度相似度。6.一种机器学习模型的训练方法,包括:获取样本数据,其中,所述样本数据包括样本和所述样本的特征;将所述样本的特征输入机器学习模型,得到所述样本的输出结果;根据所述样本的输出结果,确定所述机器学习模型的损失;以及根据所述损失,调整所述机器学习模型的参数;其中,所述样本数据是根据权利要求1至5中任一项所述的方法生成的。7.根据权利要求6所述的方法,其中,所述样本数据包括正样本和负样本;所述根据所述样本的输出结果,确定所述机器学习模型的损失包括:根据所述正样本的输出结果,确定所述正样本的损失;以及根据所述负样本的输出结果,确定所述负样本的损失;所述根据所述损失,调整所述机器学习模型的参数包括:根据所述正样本的损失和所述负样本的损失,调整所述机器学习模型的参数。8.一种确定设备关联关系的方法,包括:获取与第一设备关联的网络使用数据、运动数据以及环境数据,并获取与第二设备关联的网络使用数据、运动数据以及环境数据;根据所述与第一设备关联的网络使用数据、运动数据以及环境数据以及所述与第二设备关联的网络使用数据、运动数据以及环境数据,确定第一设备和第二设备之间的网络使用相似度、运动相似度和环境相似度;根据所述网络使用相似度、运动相似度和环境相似度,确定所述第一设备和第二设备的关联特征;将所述关联特征输入机器学习模型,得到所述第一设备和所述第二设备属于同一对象的概率;以及响应于所述概率大于阈值,确定所述第一设备和所述第二设备彼此关联;其中,所述机器学习模型是根据权利要求6或7所述的方法进行训练得到的。9.一种数据库生成方法,包括:获取与多个设备各自关联的网络使用数据、运动数据以及环境数据;对所述多个设备进行两两配对,得到至少一个设备对;针对每个设备对,分别根据所述网络使用数据、运动数据以及环境数据,确定该设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度,并根据所述网络使用相似度、运动相似度和环境相似度,确定所述设备对的特征;
将所述设备对的特征输入机器学习模型,得到所述设备对中的两个设备属于同一对象的概率;以及响应于所述概率大于阈值,将所述设备对中两个设备各自的属性信息添加到数据库中,其中,所述两个设备各自的属性信息包含彼此的设备标识;其中,所述机器学习模型是根据权利要求6或7所述的方法进行训练得到的。10.一种信息推荐方法,包括:接收用于查询目标设备的关联设备的请求,其中,所述请求包括所述目标设备的目标标识;以及根据所述目标标识从数据库中确定所述目标设备的属性信息;根据所述属性信息,确定与所述目标设备关联的关联设备的标识;根据所述关联设备的标识,确定所述关联设备的属性信息;以及根据所述关联设备的属性信息,输出针对所述目标设备的推荐信息。其中,所述数据库是根据权利要求9所述的方法生成的。11.一种样本数据生成装置,包括:第一获取模块,用于获取与M个设备各自关联的网络使用数据、运动数据以及环境数据,其中,所述网络使用数据包括对象标识,M为大于1的整数;第一配对模块,用于根据所述对象标识对所述M个设备进行配对,得到N个设备对,N为大于1的整数;第一特征确定模块,用于针对每个设备对,分别根据所述网络使用数据、运动数据以及环境数据,确定所述设备对中两个设备之间的网络使用相似度、运动相似度和环境相似度,并根据所述网络使用相似度、运动相似度和环境相似度,确定所述设备对的特征;以及样本数据...

【专利技术属性】
技术研发人员:金博夫周俊章越惠盼焦健
申请(专利权)人:百度中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1