用于确定用户的家庭属性信息的方法与设备技术

技术编号:15194187 阅读:189 留言:0更新日期:2017-04-20 15:50
本申请的目的是提供一种用于确定用户的家庭属性信息的方法及设备。与现有技术相比,本申请通过获取样本数据,其中,样本数据包括样本用户与样本网络设备的关联信息,例如通信时间、通信频率、通信日期等,并对所述样本数据进行机器学习来确定对应的关联决策模型信息,并将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,通过机器学习来确定对应的关联决策模型信息可以有效的提高用户家庭关联关系的识别率。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种用于确定用户的家庭属性信息的技术。
技术介绍
随着家庭互联网技术的蓬勃发展,越来越多的业务以家庭为单位进行开展,所以识别出哪些用户来自同一家庭,对于解决家庭互联网精细数据化运营至关重要。现有技术中,对于用户家庭识别方法主要通过电话座机与手机号的通信数据关系进行推断,这种方法存在着几个缺陷,例如,基于小样本数据建模容易过拟合,数据采集成本越来越高,无法把用户通信设备进行统一识别,不便于采用互联网行为特征进行扩展,家庭用户的覆盖率和识别率不高等。随着家庭互联网技术的发展,上述问题会越来越突出。
技术实现思路
本申请的目的是提供一种用于确定用户的家庭属性信息的方法与设备,以解决用户与对应网络设备所在的家庭是否具有家庭关联关系的问题。根据本申请的一个方面,提供了一种用于确定用户的家庭属性信息的方法,其中,该方法包括:获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;通过对所述样本数据进行机器学习确定对应的关联决策模型信息;将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。根据本申请的另一方面,还提供了一种用于确定用户的家庭属性信息的设备,其中,该设备包括:样本获取装置,用于获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;模型确定装置,用于通过对所述样本数据进行机器学习确定对应的关联决策模型信息;模型应用装置,用于将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。与现有技术相比,本申请通过获取样本数据,其中,样本数据包括样本用户与样本网络设备的关联信息,例如通信时间、通信频率、通信日期等,并对所述样本数据进行机器学习来确定对应的关联决策模型信息,并将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,通过机器学习来确定对应的关联决策模型信息可以有效的提高用户家庭关联关系的识别率。而且,本申请还可以通过根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对应的通信记录信息归并为用一个用户的通信记录信息,并根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。例如,通过将家庭用户所使用的通信设备进行统一映射,即把所述通信设备归一化为同一用户,有利于采用互联网的行为特征进行扩展。此外,本申请还可以通过判断当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭,还可以根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,并根据目标用户的画像信息确定所述目标家庭的家庭画像信息,从而可以根据所述家庭画像信息为所述目标家庭提供推荐信息,例如促销信息、广告信息等,有利于许多以家庭为单位的业务的开展。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1示出根据本申请一个方面的一种用于确定用户的家庭属性信息的方法流程图;图2示出根据本申请一个优选实施例的一种用于确定用户的家庭属性信息的方法流程图;图3示出根据本申请另一个方面的一种用于确定用户的家庭属性信息的设备示意图;图4示出根据本申请一个优选实施例的用于确定用户的家庭属性信息的设备示意图。附图中相同或相似的附图标记代表相同或相似的部件。具体实施方式下面结合附图对本专利技术作进一步详细描述。在本申请一个典型的配置中,终端、服务网络的设备和可信方均包括一个或多个处理器(CPU)、输入/输出接口、网络接口和内存。内存可能包括计算机可读介质中的非永久性存储器,随机存取存储器(RAM)和/或非易失性内存等形式,如只读存储器(ROM)或闪存(flashRAM)。内存是计算机可读介质的示例。计算机可读介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机的存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带,磁带磁盘存储或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。按照本文中的界定,计算机可读介质不包括非暂存电脑可读媒体(transitorymedia),如调制的数据信号和载波。为更进一步阐述本申请所采取的技术手段及取得的效果,下面结合附图及较佳实施例,对本申请的技术方案,进行清楚和完整的描述。参图1所示,展示了根据本申请的一个方面提供的一种用于确定用户的家庭属性信息的方法,其中,该方法包括:S1获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;S2通过对所述样本数据进行机器学习确定对应的关联决策模型信息;S3将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。在该实施例中,在所述步骤S1中,获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;具体地,其中的网络设备可以为使用户接入因特网的设备,例如,可包括路由器、建立无线接入点的设备等,那么样本网络设备便为其中用来作为样本的网络设备,以获得下述的关联决策模型;其中的样本用户与样本网络设备的关联信息包含样本用户与样本网络设备相关联的所有信息,也即样本用户接入样本网络设备的相关信息,例如样本用户接入样本网络设备的短时间内的时间分布(例如一天)、长时间内的时间分布(例如一个月)、频次等信息。具体地,获取样本数据的方式可包括直接从本地设备获取已存在的样本数据,也可包括通过从采集的已确定关联关系的用户与网络设备的通信数据中提取样本数据等。本领域的技术人员应当能够理解,上述步骤S1中获取样本数据的方式仅为举例,其他现有的或者今后可能出现的获取样本数据的方式如可适用于本申请,也应包含在本申请保护范围以内,并在此以引用的方式包含于此。继续在该实施例中,在所述步骤S2中,通过对所述样本数据进行机器学习确定对应的关联决策模型信息;具体地,其中的关联决策模型用于确定用户与网络设备是否具有关联关系,进一步地,所述关联决策模型可通过建立人工智能模型实现,例如,可以采用GBDT算法(gradientboostingdecisiontree),该算法是由多棵决策树组成,最终的分类结果是基于所有的结果累加起来的,例如,通过对样本数据运用GBDT算法不断进行机器学习训练,使输出的用户与网络设备的关联关系达到一定的准确率,从而确定对应的关联决策模型信息。继续在该实施例中,在所述步骤S3中,将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。其中,所述使用记录信息包括用户与多个网络本文档来自技高网...
用于确定用户的家庭属性信息的方法与设备

【技术保护点】
一种用于确定用户的家庭属性信息的方法,其中,该方法包括:获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;通过对所述样本数据进行机器学习确定对应的关联决策模型信息;将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。

【技术特征摘要】
1.一种用于确定用户的家庭属性信息的方法,其中,该方法包括:获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息;通过对所述样本数据进行机器学习确定对应的关联决策模型信息;将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息。2.根据权利要求1所述的方法,其中,所述将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息包括:将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备的设备关联信息;当所述设备关联信息超过预定的关联阈值信息,确定所述用户与所述网络设备对应的家庭的家庭关联信息为关联。3.根据权利要求1或2所述的方法,其中,该方法还包括:当两个用户与同一网络设备对应的家庭的家庭关联信息均为关联时,确定所述两个用户属于同一家庭。4.根据权利要求1至3中任一项所述的方法,其中,该方法还包括:根据目标家庭对应的目标网络设备确定所述目标家庭所包括的多个目标用户,其中,所述目标用户与所述目标网络设备对应的家庭的家庭关联信息为关联。5.根据权利要求4所述的方法,其中,该方法还包括:根据所述目标用户的用户画像信息确定所述目标家庭的家庭画像信息;根据所述家庭画像信息为所述目标家庭提供推荐信息。6.根据权利要求1至5中任一项所述的方法,其中,所述样本数据包括正样本数据,其中,所述正样本数据包括样本用户与样本网络设备相关联的关联信息;其中,所述获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息包括:根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设
\t备关联组;基于预定规则从所述多个用户与通信设备关联组中筛选确定同一个用户对应的优选网络设备,并作为相关联的样本用户与样本网络设备记入所述正样本数据。7.根据权利要求6所述的方法,其中,所述预定规则包括以下至少任一项:所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于或等于预定的关联距离阈值信息;所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息等于或大于预定的无关距离阈值信息;所述优选网络设备的设备位置信息与所述同一个用户的家庭位置信息间的距离信息小于所述同一个用户所使用的其他网络设备的设备位置信息与所述家庭位置信息间的距离信息。8.根据权利要求6或7所述的方法,其中,所述样本数据还包括负样本数据,其中,所述负样本数据包括样本用户与样本网络设备无关联的关联信息;其中,所述获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息还包括:根据所述同一个用户与所使用的其他通信设备间的累计通信量信息优选所述同一个用户对应的无关网络设备,并作为无关联的样本用户与样本网络设备记入所述负样本数据。9.根据权利要求6至8中任一项所述的方法,其中,所述用户与通信设备关联组中通信设备的通信用户数小于或等于家庭用户数阈值。10.根据权利要求9所述的方法,其中,该方法还包括:根据所述用户与通信设备关联组中通信设备所在地域的家庭人口普查信息确定所述家庭用户数阈值。11.根据权利要求6至10中任一项所述的方法,其中,所述根据多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组包括:根据用户标识信息间的映射关系将同一个用户的不同用户标识信息所对
\t应的通信记录信息归并为同一个用户的通信记录信息;根据归并后的多个用户使用不同网络设备的通信记录信息建立多个用户与通信设备关联组。12.根据权利要求6至11中任一项所述的方法,其中,所述获取样本数据,其中,所述样本数据包括样本用户与样本网络设备的关联信息还包括:提取所述样本数据中的样本特征信息;其中,所述通过对所述样本数据进行机器学习确定对应的关联决策模型信息包括:通过对所述样本数据及其中的样本特征信息进行机器学习确定对应的关联决策模型信息。13.根据权利要求12所述的方法,其中,所述将用户关于网络设备的使用记录信息应用于所述关联决策模型信息,以获得所述用户与所述网络设备对应的家庭的家庭关联信息包括:根据所述样本特征信息从用户关于网络设备的使用记录信息中提取预测特征信息;将所述预测特征...

【专利技术属性】
技术研发人员:吴保华付登坡甘云锋黄耐寒吕秀泉
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1