数据处理方法和装置制造方法及图纸

技术编号:11124311 阅读:62 留言:0更新日期:2015-03-11 13:59
本发明专利技术公开了一种数据处理方法和装置。其中,该数据处理方法包括:抽取多个用户的日志文件中的用户标识,得到多个用户标识;按照预设规则对多个用户标识进行排序;按顺序对排序后的多个用户标识添加序号;将序号与多个用户标识进行映射,得到用户的映射标识。通过本发明专利技术,解决了现有技术中将日志文件中的用户标识映射为整数时不准确的问题,达到了准确将日志文件的用户标识映射为整数的效果。

【技术实现步骤摘要】
数据处理方法和装置
本专利技术涉及互联网领域,具体而言,涉及一种数据处理方法和装置。
技术介绍
推荐系统越来越多的被各个网站使用,推荐系统的数据源一般是日志文件。在常 用的日志文件中包含了大量的用户历史行为数据,推荐系统根据用户历史行为数据位用户 提供推荐信息。在提供推荐信息时,首先要根据用户的标识识别出用户的身份,由于每个网 站生成的日志文件中记载用户标识的方式不存在统一的规范,导致日志文件中没有标准的 用户标识字段,一般是自定义的字符串。而对于推荐引擎的算法库来说,这种自定义的字符 串会降低推荐的效率,基于对性能和处理复杂度的考虑,在进行推荐时需要输入一个整数 类型的用户标识。 现有技术可以通过哈希算法将自定义的字符串标识映射为整数,但是,不同的字 符串经过哈希算法映射的整数可能相同,因此导致一个整数所对应的用户标识不唯一,造 成数据处理不准确。 针对现有技术将日志文件中的用户标识映射为整数时不准确的问题,目前尚未提 出有效的解决方案。
技术实现思路
本专利技术的主要目的在于提供一种数据处理方法和装置,以解决现有技术将日志文 件中的用本文档来自技高网...

【技术保护点】
一种数据处理方法,其特征在于,包括:抽取多个用户的日志文件中的用户标识,得到多个用户标识,其中,每个用户包括一个用户标识;按照预设规则对所述多个用户标识进行排序;按顺序对排序后的所述多个用户标识添加序号;将所述序号与所述多个用户标识进行映射,得到所述用户的映射标识。

【技术特征摘要】
1. 一种数据处理方法,其特征在于,包括: 抽取多个用户的日志文件中的用户标识,得到多个用户标识,其中,每个用户包括一个 用户标识; 按照预设规则对所述多个用户标识进行排序; 按顺序对排序后的所述多个用户标识添加序号; 将所述序号与所述多个用户标识进行映射,得到所述用户的映射标识。2. 根据权利要求1所述的方法,其特征在于,在按照预设规则对所述多个用户标识进 行排序之前,所述方法还包括: 获取记录有所述序号和所述映射标识的映射表和待映射用户标识; 从所述映射中查找所述待映射用户标识; 判断所述待映射用户标识是否存在于所述映射表中; 如果判断出所述待映射用户标识存在于所述映射表中,则将所述待映射用户标识映射 为查找到的用户标识所对应的映射标识; 如果判断出所述待映射用户标识不存在于所述映射表中,则确定对所述待映射用户标 识进行排序。3. 根据权利要求2所述的方法,其特征在于,如果判断出所述待映射用户标识不存在 于所述映射表中,则确定对所述用户标识进行排序包括: 获取所述映射表中的用户标识; 将所述映射表中的所述用户标识和所述待映射用户标识一起进行排序。4. 根据权利要求2所述的方法,其特征在于,在将所述待映射用户标识映射为查找到 的用户标识所对应的映射标识之后,所述方法还包括: 将所述待映射用户标识更新到所述映射表中。5. 根据权利要求1所述的方法,其特征在于,按照预设规则对所述用户标识进行排序 包括: 获取待映射用户标识所在的日志文件中的时间信息; 按照所述时间信息对所述用户标识进行排序,得到排序后的用户标识;以及 按照所述预设规则对所述排序后的用户标识进行排序。6. -种数据处理装置,其特征在于,包括: 抽取单元,用于抽取...

【专利技术属性】
技术研发人员:王江伟
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1