【技术实现步骤摘要】
用于输出信息的方法和装置
本申请实施例涉及计算机
,具体涉及用于输出信息的方法和装置。
技术介绍
在互联网上用户行为定向应用中,对访客进行标记的常用方法是用cookie。当用户再次访问网站时,网站可以通过cookie中存储的信息对用户进行标定和识别。但是,有时对应于同一用户的cookie会以几个文件的形式保存,并且同一用户可使用不同的虚拟设备进行网络活动,产生不同的cookie。导致基于cookie的用户行为分析不够准确,故需要在对应同一用户的cookie之间建立准确度较高关联关系。在具体的问题上,一般用于个性化的移动设备标识的cookie,容易被用户清理,而且不同浏览器的cookie是不一致的,导致月活的cookie能达到百亿量级。对如此量级的cookie做两两组合,来预测是同一个自然人。此外,在海量指纹、图像、脚印中找出属于同一用户的指纹、图像、脚印也需要两两组合进行匹配。这种匹配方式对于计算的要求非常高。
技术实现思路
本申请实施例提出了用于输出信息的方法和装置。第一方面,本申请实施例提供了一种用于输出信息的方法,包括:获取待匹配的至少一个用户信息,其中,用户信息包括至少一个属性信息;根据预定的分类字典将至少一个用户信息分为至少一个类别,其中,分类字典用于表征类别和属性信息的对应关系;对于至少一个类别中的类别,将属于该类别的至少一个用户信息进行匹配以确定出属于同一用户的用户信息;输出各类别中属于同一用户的用户信息。在一些实施例中,根据预定的分类字典将至少一个用户 ...
【技术保护点】
1.一种用于输出信息的方法,包括:/n获取待匹配的至少一个用户信息,其中,用户信息包括至少一个属性信息;/n根据预定的分类字典将所述至少一个用户信息分为至少一个类别,其中,所述分类字典用于表征类别和属性信息的对应关系;/n对于所述至少一个类别中的类别,将属于该类别的至少一个用户信息进行匹配以确定出属于同一用户的用户信息;/n输出各类别中属于同一用户的用户信息。/n
【技术特征摘要】
1.一种用于输出信息的方法,包括:
获取待匹配的至少一个用户信息,其中,用户信息包括至少一个属性信息;
根据预定的分类字典将所述至少一个用户信息分为至少一个类别,其中,所述分类字典用于表征类别和属性信息的对应关系;
对于所述至少一个类别中的类别,将属于该类别的至少一个用户信息进行匹配以确定出属于同一用户的用户信息;
输出各类别中属于同一用户的用户信息。
2.根据权利要求1所述的方法,其中,所述根据预定的分类字典将所述至少一个用户信息分为至少一个类别,包括:
将所述至少一个用户信息中的属性信息与至少一个级别的分类字典进行匹配;
从所述至少一个级别的分类字典中确定出目标分类字典,其中,经所述目标分类字典匹配出的各类别的用户信息的数量小于预定阈值;
根据所述目标分类字典将所述至少一个用户信息分为至少一个类别。
3.根据权利要求1所述的方法,其中,所述获取待匹配的至少一个用户信息,包括:
获取待匹配的至少一个候选用户信息,其中,候选用户信息包括至少一个属性信息,属性信息包括网络地址;
从所述至少一个候选用户信息中过滤掉网络地址为局域网地址的用户信息得到用户信息。
4.根据权利要求1所述的方法,其中,所述获取待匹配的至少一个用户信息,包括:
获取待匹配的至少一个候选用户信息,其中,候选用户信息包括至少一个属性信息;
从所述至少一个候选用户信息中过滤掉出现频次小于预定频次阈值的候选用户信息得到用户信息。
5.根据权利要求1-4之一所述的方法,其中,所述将属于该类别的至少一个用户信息进行匹配以确定出属于同一用户的用户信息,包括:
将属于该类别的至少一个用户信息组成至少一个用户信息对;
对于所述至少一个用户信息对中的用户信息对,将该用户信息对输入预先训练的匹配模型,得到该用户信息对属于同一用户的置信度;
将置信度大于预定置信度阈值的用户信息对确定为属于同一用户的用户信息。
6.根据权利要求5所述的方法,其中,所述将属于该类别的至少一个用户信息组成至少一个用户信息对,包括:
对于属于该类别的至少一个用户信息中的用户信息,为该用户信息建立倒排索引,其中,倒排索引用于表征用户信息和各属性信息的对应关系;
根据各用户信息的倒排索引查找到属性信息匹配的用户信息组成用户信息对。
7.一种用于输出信息的装置,包括:
获取单元,被配置成获取待匹配的至少一个用户信息,其中,用户信息包括至少一个属性信息;
分类单...
【专利技术属性】
技术研发人员:孙杰,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。