一种数据处理方法和装置制造方法及图纸

技术编号:20545780 阅读:19 留言:0更新日期:2019-03-09 18:43
本发明专利技术实施例公开了一种数据处理方法和装置,所述方法包括:获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网;所述用户行为拓扑网包括多个子行为拓扑网,各子行为拓扑网中均至少包含第一用户节点和第二用户节点;根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量;获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度。采用本发明专利技术,可以精准、合理的量化任意两个节点之间的相似度,并可降低计算误差。

A Data Processing Method and Device

The embodiment of the present invention discloses a data processing method and device, which includes: acquiring the historical behavior data of all users and generating a user behavior topology network based on the historical behavior data of all users; the user behavior topology network includes a plurality of sub-behavior topology networks, each of which contains at least the first user node and the second user node; According to the sub-behavioral topological network, the first splicing vector corresponding to the first user node is generated, and the second splicing vector corresponding to the second user node is generated; the vector distance value between the first splicing vector and the second splicing vector is obtained, and the user similarity between the first user node and the second user node is determined according to the vector distance value. By adopting the present invention, the similarity between any two nodes can be quantified accurately and reasonably, and the calculation error can be reduced.

【技术实现步骤摘要】
一种数据处理方法和装置
本专利技术涉及互联网
,尤其涉及一种数据处理方法和装置。
技术介绍
随着网络的飞速发展以及智能手机的普及,衍生出了各种各式各样的社交网络平台,在这些社交网络平台中的用户可选择具有相似特征的个体作为朋友,进而构建一个与该用户相关的好友关系网络,以便于该用户能随时随地与该好友关系网络中的朋友进行文字、语音或视频交流。但是随着社交平台上网络用户数量的增加,各用户之间的好友关系网络也变得越来越复杂,进而增加了计算该社交网络平台中所有用户之间的社交同质性的难度。现有的社交同质性计算方法通常是统计好友关系网络中好友之间的共同个数统计特征,并对每个统计特征进行加权计算,即该方法主要是利用关系好友之间共同关注数、共同阅读转发数、共同好友数等特征以及与每个特征分别对应的加权值,计算该好友关系网络中好友之间的用户相似度。但是,该方法仅仅是对用户行为数据进行非常浅层、粗粒度的数量上的统计应用,进而存在较大的计算误差,从而无法精细地表达各用户之间的用户相似性。此外,通过人工赋予加权值,无法得到合理的相似度值。
技术实现思路
本专利技术实施例提供一种数据处理方法和装置,可以精准、合理的量化任意两个节点之间的相似度,并可降低计算误差。本专利技术第一方面提供了一种数据处理方法,包括:获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网;所述用户行为拓扑网包括多个子行为拓扑网,各子行为拓扑网中均至少包含第一用户节点和第二用户节点;根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量;获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度。其中,所述获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网,包括:获取日志数据库中所有用户的历史行为数据,并基于各历史行为数据生成用户行为拓扑网;基于多个行为属性类型将所述用户行为拓扑网划分为多个子行为拓扑网;每个子行为拓扑网分别对应一个行为属性类型。其中,所述多个行为属性类型包括:阅读行为类型,关注行为类型,好友关系类型和沟通行为类型;所述基于多个行为属性类型将所述用户行为拓扑网划分为多个子行为拓扑网,包括:获取所有用户所阅读的文章信息,并以所有用户和所有文章信息为节点以及所有用户与所有文章信息之间的阅读关系,构建与所述阅读行为类型对应的阅读行为拓扑网;获取所有用户所关注的公共广播群组信息,并以所有用户和所有的公共广播群组信息为节点以及所有用户与所有公共广播群组信息之间的关注关系,构建与所述关注行为类型对应的关注行为拓扑网;获取所有用户之间的好友关系,并以所有用户为节点以及所有用户之间的好友关系,构建与所述好友关系类型对应的好友关系拓扑网;获取所有用户之间的多种沟通信息,并以所有用户为节点以及所有用户之间的沟通关系,构建与所述沟通行为类型对应的沟通行为拓扑网;所述沟通关系是由多种沟通信息以及各沟通信息分别对应的权重值所决定;其中,所述多个子行为拓扑网包括:所述阅读行为拓扑网,所述关注行为拓扑网,所述好友关系拓扑网和所述沟通行为拓扑网。其中,所述根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量,包括:在各子行为拓扑网中分别生成与所述第一用户节点对应的第一映射向量,并根据所述各子行为拓扑网生成与所述第二用户节点对应的第二映射向量;所述第一映射向量的数量和第二映射向量的数量均为子行为拓扑网的数量;将各第一映射向量进行拼接,生成所述第一用户节点对应的第一拼接向量,并将各第二映射向量进行拼接,生成所述第二用户节点对应的第二拼接向量。其中,所述在各子行为拓扑网中分别生成与所述第一用户节点对应的第一映射向量,并根据所述各子行为拓扑网生成与所述第二用户节点对应的第二映射向量,包括:分别在各子行为拓扑网中构建多个节点序列;在所述各子行为拓扑网分别对应的多个节点序列中,筛选与第一用户节点相关联的第一序列,并筛选与所述第二用户节点相关的第二序列;将所述各子行为拓扑网分别对应的第一序列映射到向量空间,生成与所述各子行为拓扑网分别对应的映射向量,作为所述第一用户节点对应的第一映射向量;将所述各子行为拓扑网分别对应的第二序列映射到向量空间,生成与所述各子行为拓扑网分别对应的映射向量,作为所述第二用户节点对应的第二映射向量。可选的,在所述获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度之前,还包括:检测所述第一用户节点和所述第二用户节点之间的关联关系;若所述关联关系为好友关系,则执行所述获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度的步骤。可选的,所述方法还包括:当所述用户相似度满足推荐条件时,将与所述第一用户节点对应的第一用户作为目标用户,并将与所述第二用户节点对应的第二用户作为待推荐用户;获取所述目标用户对应的业务数据,并将所述业务数据推送至所述待推荐用户对应的用户终端。可选的,所述方法还包括:在更新时长内,定时更新日志数据库中每个用户对应的历史行为数据,并基于更新后的历史行为数据构建新的用户行为拓扑网,以便于后续根据所述新的用户行为拓扑网计算所述第一用户节点和所述第二用户节点之间的用户相似度。本专利技术第二方面提供了一种数据处理装置,包括:拓扑网生成模块,用于获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网;所述用户行为拓扑网包括多个子行为拓扑网,各子行为拓扑网中均至少包含第一用户节点和第二用户节点;拼接向量生成模块,用于根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量;相似度计算模块,用于获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度。其中,所述拓扑网生成模块包括:历史数据获取单元,用于获取日志数据库中所有用户的历史行为数据,并基于各历史行为数据生成用户行为拓扑网;拓扑网划分单元,用于基于多个行为属性类型将所述用户行为拓扑网划分为多个子行为拓扑网;每个子行为拓扑网分别对应一个行为属性类型。其中,所述多个行为属性类型包括:阅读行为类型,关注行为类型,好友关系类型和沟通行为类型;所述拓扑网划分单元,包括:第一构建子单元,用于获取所有用户所阅读的文章信息,并以所有用户和所有文章信息为节点以及所有用户与所有文章信息之间的阅读关系,构建与所述阅读行为类型对应的阅读行为拓扑网;第二构建子单元,用于获取所有用户所关注的公共广播群组信息,并以所有用户和所有的公共广播群组信息为节点以及所有用户与所有公共广播群组信息之间的关注关系,构建与所述关注行为类型对应的关注行为拓扑网;第三构建子单元,用于获取所有用户之间的好友关系,并以所有用户为节点以及所有用户之间的好友关系,构建与所述好友关系类型对应的好友关系拓扑网;第四构建子单元,用于获取所有用户之间的多种沟通信息,并以本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,包括:获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网;所述用户行为拓扑网包括多个子行为拓扑网,各子行为拓扑网中均至少包含第一用户节点和第二用户节点;根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量;获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度。

【技术特征摘要】
1.一种数据处理方法,其特征在于,包括:获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网;所述用户行为拓扑网包括多个子行为拓扑网,各子行为拓扑网中均至少包含第一用户节点和第二用户节点;根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量;获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度。2.根据权利要求1所述的方法,其特征在于,所述获取所有用户的历史行为数据,并根据所述所有用户的历史行为数据生成用户行为拓扑网,包括:获取日志数据库中所有用户的历史行为数据,并基于各历史行为数据生成用户行为拓扑网;基于多个行为属性类型将所述用户行为拓扑网划分为多个子行为拓扑网;每个子行为拓扑网分别对应一个行为属性类型。3.根据权利要求2所述的方法,其特征在于,所述多个行为属性类型包括:阅读行为类型,关注行为类型,好友关系类型和沟通行为类型;所述基于多个行为属性类型将所述用户行为拓扑网划分为多个子行为拓扑网,包括:获取所有用户所阅读的文章信息,并以所有用户和所有文章信息为节点以及所有用户与所有文章信息之间的阅读关系,构建与所述阅读行为类型对应的阅读行为拓扑网;获取所有用户所关注的公共广播群组信息,并以所有用户和所有的公共广播群组信息为节点以及所有用户与所有公共广播群组信息之间的关注关系,构建与所述关注行为类型对应的关注行为拓扑网;获取所有用户之间的好友关系,并以所有用户为节点以及所有用户之间的好友关系,构建与所述好友关系类型对应的好友关系拓扑网;获取所有用户之间的多种沟通信息,并以所有用户为节点以及所有用户之间的沟通关系,构建与所述沟通行为类型对应的沟通行为拓扑网;所述沟通关系是由多种沟通信息以及各沟通信息分别对应的权重值所决定;其中,所述多个子行为拓扑网包括:所述阅读行为拓扑网,所述关注行为拓扑网,所述好友关系拓扑网和所述沟通行为拓扑网。4.根据权利要求1所述的方法,其特征在于,所述根据所述各子行为拓扑网,生成所述第一用户节点对应的第一拼接向量,并生成所述第二用户节点对应的第二拼接向量,包括:在各子行为拓扑网中分别生成与所述第一用户节点对应的第一映射向量,并根据所述各子行为拓扑网生成与所述第二用户节点对应的第二映射向量;所述第一映射向量的数量和第二映射向量的数量均为子行为拓扑网的数量;将各第一映射向量进行拼接,生成所述第一用户节点对应的第一拼接向量,并将各第二映射向量进行拼接,生成所述第二用户节点对应的第二拼接向量。5.根据权利要求4所述的方法,其特征在于,所述在各子行为拓扑网中分别生成与所述第一用户节点对应的第一映射向量,并根据所述各子行为拓扑网生成与所述第二用户节点对应的第二映射向量,包括:分别在各子行为拓扑网中构建多个节点序列;在所述各子行为拓扑网分别对应的多个节点序列中,筛选与第一用户节点相关联的第一序列,并筛选与所述第二用户节点相关的第二序列;将所述各子行为拓扑网分别对应的第一序列映射到向量空间,生成与所述各子行为拓扑网分别对应的映射向量,作为所述第一用户节点对应的第一映射向量;将所述各子行为拓扑网分别对应的第二序列映射到向量空间,生成与所述各子行为拓扑网分别对应的映射向量,作为所述第二用户节点对应的第二映射向量。6.根据权利要求1所述的方法,其特征在于,在所述获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度之前,还包括:检测所述第一用户节点和所述第二用户节点之间的关联关系;若所述关联关系为好友关系,则执行所述获取所述第一拼接向量和所述第二拼接向量之间的向量距离值,并根据所述向量距离值确定所述第一用户节点和第二用户节点之间的用户相似度的步骤。7.根据权利要求1所述的方法,其特征在于,还包括:当所述用户相似度满足推荐条件时,将与所述第一用户节点对应的第一用户作为目标用户,并将与所述第二用户节点对应的第二用户作为待推荐用户;获取所述目标用户对应的业务数据,并将所述业务数据推送...

【专利技术属性】
技术研发人员:高文尧易玲玲贺鹏邱立威
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1