一种模型训练方法、数据获取方法以及相关装置制造方法及图纸

技术编号:24355330 阅读:30 留言:0更新日期:2020-06-03 02:26
本申请公开了一种模型训练方法、数据获取方法以及相关装置,通过获取多个训练样本;然后获取每个训练样本中至少两个标识码分别指示的终端设备的行为信息;并根据该行为信息确定用于第一模型训练的特征向量;进而将该特征向量输入该第一模型,以得到用于指示至少两个目标标识码是否对应同一目标对象的第二模型。由于该第二模型基于多个行为信息进行了参数的训练,其获得的匹配结果不会受到偶发情况的影响,可以精确的进行标识码之间对应关系的匹配,进而提高了用户与标识码关联的准确性。

A model training method, data acquisition method and related devices

【技术实现步骤摘要】
一种模型训练方法、数据获取方法以及相关装置
本申请涉及计算机
,尤其涉及一种模型训练方法、数据获取方法以及相关装置。
技术介绍
随着移动终端相关技术的发展,越来越多的智能终端设备出现在人们的生活中,往往一个用户对应着多个终端设备,而用户在每个智能设备上都有对应的操作,为精确的确定该用户的用户画像,如何确定多个设备是否属于同一用户成为难题。一般,每个终端设备对应着一个标识码,对于不同标识码对应的终端设备通过程序登录同一用户账号的行为,可以将该不同的标识码对应的终端设备归类为同一个用户所使用,并进一步的对终端设备上的信息进行收集以及分析。但是,可能存在用户临时登录某一终端设备的情况,例如:借用他人的设备进行临时登录,此时用户与该终端设备并不是对应的,造成了用户识别的错误,影响用户与标识码关联的准确性。
技术实现思路
有鉴于此,本申请提供一种模型训练的方法,可以有效避免由于偶发状况差异产生的标识码关联错误,提高识别码匹配过程的精确性。本申请第一方面提供一种模型训练的方法,可以应用于终端设备中包含模型训练功能的系统、手机找回程序或数据恢复程序中,具体包括:获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;根据所述行为信息确定用于第一模型训练的特征向量;将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。可选的,在本申请一些可能的实现方式中,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:获取所述行为信息中的用于指示标识码对应的终端设备的网络结构特征,所述网络结构特征基于所述终端设备的应用程序列表确定;确定所述网络结构特征和所述标识码的第一关联关系;根据所述第一关联关系确定所述特征向量。可选的,在本申请一些可能的实现方式中,所述根据所述第一关联关系确定所述特征向量,包括:根据所述第一关联关系确定拓扑网络;基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;将所述节点序列进行向量转换,以确定所述特征向量。可选的,在本申请一些可能的实现方式中,所述将所述节点序列进行向量转换,以确定所述特征向量,包括:确定所述节点序列中节点对应的属性特征,所述属性特征用于指示所述节点对应于所述标识码或所述网络结构特征;将所述属性特征和所述节点序列输入卷积神经网络模型,以输出所述特征向量。可选的,在本申请一些可能的实现方式中,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,所述时间序列特征基于所述终端设备的网络连接情况确定;确定所述时间序列特征和所述标识码的第二关联关系;将所述第二关联关系输入循环神经网络模型,以确定所述特征向量。可选的,在本申请一些可能的实现方式中,所述获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,包括:获取所述行为信息中的用于指示标识码对应的终端设备的无线网络的连接序列记录;根据所述连接序列记录确定所述时间序列特征。可选的,在本申请一些可能的实现方式中,所述根据所述连接序列记录确定所述时间序列特征,包括:确定所述连接序列记录中的重复项,以更新所述连接序列记录,所述重复项用于指示所述终端设备连接同一无线网络的情况;基于更新后的所述连接序列记录确定所述时间序列特征。可选的,在本申请一些可能的实现方式中,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:获取所述行为信息中的用于指示同一训练样本内的标识码对应的终端设备的行为特征;基于所述行为特征获取所述同一训练样本内的标识码的相似度;根据所述相似度与所述训练样本的对应关系确定所述特征向量。可选的,在本申请一些可能的实现方式中,所述基于所述行为特征获取所述同一训练样本内的标识码的相似度,包括:确定所述行为特征中的目标特征;为所述目标特征设置权重信息,并更新所述行为特征;基于更新后的所述行为特征获取所述同一训练样本内的标识码的相似度。可选的,在本申请一些可能的实现方式中,所述获取多个训练样本,包括:获取训练集,所述训练集包括多个对应关系,其中每个对应关系包括第一对象,以及与第一对象相关联的至少一个标识码,所述至少一个标识码中的每个标识码用于指示一个终端设备;从所述训练集中确定包括至少两个标识码的对应关系作为训练样本。可选的,在本申请一些可能的实现方式中,所述从所述训练集中确定包括至少两个标识码的对应关系作为训练样本,包括:确定对应于第一对象的至少两个标识码作为正样本;将所述正样本中的一个标识码修改为对应于第二对象的标识码,以得到负样本;根据所述正样本和所述负样本得到训练样本。可选的,在本申请一些可能的实现方式中,所述下载行为为终端设备中下载的应用程序的行为,所述连接行为为终端设备连接无线网络的行为,所述注册行为为终端设备对应的运营商信息,所述第一模型为逻辑斯特回归模型。本申请第二方面提供一种模型训练的装置,包括:获取单元,用于获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;解析单元,用于获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;确定单元,用于根据所述行为信息确定用于第一模型训练的特征向量;训练单元,用于将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于获取所述行为信息中的用于指示标识码对应的终端设备的网络结构特征,所述网络结构特征基于所述终端设备的应用程序列表确定;所述确定单元,具体用于确定所述网络结构特征和所述标识码的第一关联关系;所述确定单元,具体用于根据所述第一关联关系确定所述特征向量。可选的,在本申请一些可能的实现方式中,所述确定单元,具体用于根据所述第一关联关系确定拓扑网络;所述确定单元,具体用于基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;所述确定单元,具体用于将所述节点序本文档来自技高网...

【技术保护点】
1.一种模型训练的方法,其特征在于,包括:/n获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;/n获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;/n根据所述行为信息确定用于第一模型训练的特征向量;/n将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。/n

【技术特征摘要】
1.一种模型训练的方法,其特征在于,包括:
获取多个训练样本,其中每个训练样本包括第一对象,以及与所述第一对象相关联的至少两个标识码,所述至少两个标识码中的每个标识码用于指示一个终端设备;
获取所述每个训练样本中所述至少两个标识码分别指示的终端设备的行为信息,所述行为信息包括连接行为、下载行为或注册行为中的至少一个;
根据所述行为信息确定用于第一模型训练的特征向量;
将所述特征向量输入所述第一模型,以得到第二模型,所述第二模型用于确定至少两个目标标识码之间的匹配结果,所述匹配结果用于指示所述至少两个目标标识码是否对应同一目标对象。


2.根据权利要求1所述的方法,其特征在于,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的网络结构特征,所述网络结构特征基于所述终端设备的应用程序列表确定;
确定所述网络结构特征和所述标识码的第一关联关系;
根据所述第一关联关系确定所述特征向量。


3.根据权利要求2所述的方法,其特征在于,所述根据所述第一关联关系确定所述特征向量,包括:
根据所述第一关联关系确定拓扑网络;
基于所述拓扑网络进行随机游走,以生成节点序列,所述节点序列用于将所述标识码基于所述网络结构特征进行关联;
将所述节点序列进行向量转换,以确定所述特征向量。


4.根据权利要求3所述的方法,其特征在于,所述将所述节点序列进行向量转换,以确定所述特征向量,包括:
确定所述节点序列中节点对应的属性特征,所述属性特征用于指示所述节点对应于所述标识码或所述网络结构特征;
将所述属性特征和所述节点序列输入卷积神经网络模型,以输出所述特征向量。


5.根据权利要求1所述的方法,其特征在于,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,所述时间序列特征基于所述终端设备的网络连接情况确定;
确定所述时间序列特征和所述标识码的第二关联关系;
将所述第二关联关系输入循环神经网络模型,以确定所述特征向量。


6.根据权利要求5所述的方法,其特征在于,所述获取所述行为信息中的用于指示标识码对应的终端设备的时间序列特征,包括:
获取所述行为信息中的用于指示标识码对应的终端设备的无线网络的连接序列记录;
根据所述连接序列记录确定所述时间序列特征。


7.根据权利要求6所述的方法,其特征在于,所述根据所述连接序列记录确定所述时间序列特征,包括:
确定所述连接序列记录中的重复项,以更新所述连接序列记录,所述重复项用于指示所述终端设备连接同一无线网络的情况;
基于更新后的所述连接序列记录确定所述时间序列特征。


8.根据权利要求1所述的方法,其特征在于,所述根据所述行为信息确定用于第一模型训练的特征向量,包括:
获取所述行为信息中的用于指示同一训练样本内的标识码对应的终端设备...

【专利技术属性】
技术研发人员:钟文波程明月
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1