一种用于动态画像的用户行为数据采集和加权方法技术

技术编号:26170953 阅读:26 留言:0更新日期:2020-10-31 13:40
本发明专利技术公开了一种用于动态画像的用户行为数据采集和加权方法,具体按照以下步骤实施:1、将用户分为自主发布用户和无自主发布用户,以时间T为一个时间片段对时间进行划分,采集四个时间片段的用户行为数据,共N个数据;2、对不同用户行为的内容赋予不同的权重系数,对同一用户的N个内容的权重系数进行归一化处理,将处理后的权重系数赋予该内容;3、对根据步骤1得到的N个数据做分类,得到N个42维的标签向量,对每个内容对应的权重系数与内容对应的标签向量进行计算处理,选取前三的3个标签作为用户的兴趣爱好。通过本发明专利技术的方法可以提高实时用户兴趣预测的精确度。

【技术实现步骤摘要】
一种用于动态画像的用户行为数据采集和加权方法
本专利技术属于大数据用户行为数据分析挖掘处理
,涉及一种用于动态画像的用户行为数据采集和加权方法。
技术介绍
移动互联网时代,精细化运营逐渐成为企业发展的重要竞争力,“用户画像”的概念也应运而生。用户画像是指,在大数据时代,通过对用户产生的海量行为数据信息进行清洗、聚类、分析、挖掘,将用户的行为数据抽象成标签,再利用这些标签将用户形象具体化的过程。用户画像的建立能够帮助企业更好地为用户提供针对性的服务。在web2.0时代,网络上内容的产出主要是用户,每一个用户都可以生成自己的内容。如CSDN、维基百科等网站是为了普及网友的知识和为网友解决疑问的,用户每天在这些网站上产生各种行为数据,通过分析用户在这些网站上的行为数据可以预测用户的兴趣偏好信息。CSDN是一个专门普及计算机领域知识的论坛,其用户每天产生了大量不同种类的行为数据。例如,用户发表博客,用户转载博客,用户收藏博客,用户点赞博客,用户浏览博客,用户关注其他用户对象等。这些行为数据反映了用户的不同兴趣,如何根据这些行为数据对用户动态画像是近期计算机领域研究的焦点问题现有的用户画像已有多种方法,但这些方法目前存在两个问题:①用户行为分发表、转发、收藏、浏览、点赞、关注多种,根据行为的不同可以将用户行为内容数据分为多种类型,现有的方法没有突出不同类型用户的不同种类行为对用户画像的不同贡献。②每个用户都有自己的特点,根据行为数据产生的周期和频率不同,用户在不同时间段产生的行为及内容数据的数量也不同。分析用户的所有历史数据会造成数据量过大、分析效率降低,不能反映用户关注度动态实时变化的问题。如何使得画像技术基于用户个性化行为内容数据周期性特征,体现用户兴趣动态变化的特点是当前技术研究面临的挑战。
技术实现思路
本专利技术的目的是提供一种用于动态画像的用户行为数据采集和加权方法,解决了现有技术中存在的没有突出不同类型用户的不同种类行为对用户画像的不同贡献的问题。本专利技术所采用的技术方案是,一种用于动态画像的用户行为数据采集和加权方法,具体按照以下步骤实施:步骤1、将用户分为自主发布用户和无自主发布用户,以时间T为一个时间片段对时间进行划分,采集当前时间片段和该时间片段以前三个时间片段的用户行为数据,共N个数据;步骤2、对不同用户行为的内容赋予不同的权重系数,对同一用户的N个内容的权重系数进行归一化处理,将处理后的权重系数赋予该内容;步骤3、对根据步骤1得到N个数据做分类,得到N个42维的标签向量,利用每个内容对应的权重系数与内容对应的标签向量得到该内容带权的标签向量,对N个带权的标签向量加权求和,得到一个标签向量,选取前三的3个标签作为用户的兴趣爱好。本专利技术的特点还在于:步骤1中自主发布用户的用户行为包括发布、转发、收藏、浏览、点赞、关注;无自主发布用户的用户行为包括转发、收藏、浏览、点赞、关注。步骤1中采集用户行为数据具体按照以下步骤实施:步骤1.1、根据艾宾浩斯记忆曲线得到一个个性化的时间衰减函数,该函数确定某时间片段采集用户行为数据的权重系数;步骤1.2、分别对自主发布用户和无自主发布用户的不同用户行为按比例采集数据,在当前时间片段和该时间片段以前三个时间片段内一共采集N个数据;步骤1.3、根据步骤1.1中的权重系数计算公式计算不同用户行为在不同时间片段需要采集的数据数量。步骤1.1具体按照以下步骤实施:步骤1.1.1、使用幂函数拟合艾宾浩斯记忆曲线,拟合函数如公式(1)所示:L(t)=32.03(tc-t0)-0.1236(1)其中,L(t)表示记忆残存量百分比,t0是用户记忆时刻,tc是记忆残存量的时刻,时间t的单位是天;步骤1.1.2、对公式(1)做调整,得到个性化的时间衰减函数如公式(2):L(i)=32.03[(i-1/2)k]-0.1236i=1、2、3、4(2)定义当前时间段为第1个时间片段,随着时间的向前推移,分别为第2、3、4个时间片段,其中L(i)是第i个时间片段采集用户行为的权重系数,k=T’/5,设当前时间点为0时刻,T’为离当前时间点最近的用户连续产生5次发布行为、转发行为或收藏行为中的一种或多种的时间。步骤1.2中自主发布用户在当前时间片段和该时间片段以前三个时间片段总共四个时间片段中发布行为采集N/2个,转发行为采集N/6个,收藏行为采集N/6个,浏览行为采集N/12,点赞行为采集N/12个,无自主发布用户在四个时间片段中转发行为采集N/3个,收藏行为采集N/3个,浏览行为采集N/6个,点赞行为采集N/6个。当发布行为数据不足N/2个时,在转发行为和收藏行为中分别多采集发布行为数据不足的一半来补充发布行为数据。步骤2具体为,对于发布行为的内容赋予权重系数5,对于转发行为的内容赋予权重系数2.5,对于收藏行为的内容赋予权重系数2.5,对于浏览行为的内容赋予权重系数0.5,对于点赞行为的内容赋予权重系数0.5-2.5。点赞行为的内容的权重系数赋予分为:当点赞行为的内容为用户本身关注对象浏览、发表或点赞的内容,赋予权重系数为0.5,当点赞行为的内容为用户本身关注对象转发或收藏的内容,赋予权重系数为0.7,当点赞行为的内容与用户本身关注对象无关联,赋予权重系数为2.5。步骤3具体为,将N个数据送入Bi-LSTM+Attention模型,得到N个42维的标签向量,标签向量的每一维都有一个概率值,42个概率值相加的和为1,每一维的概率值是对应的兴趣领域在用户身上所占的比重,使用每一内容对应的权重系数乘以该内容对应的标签向量得到每一内容带权的标签向量,一共得到N个带权的标签向量,对N个带权的标签向量加权求和,得到一个标签向量,选取概率值排前三的3个标签作为用户的兴趣爱好。本专利技术的有益效果是:本专利技术一种用于动态画像的用户行为数据采集和加权方法。通过针对大数据用户行为数据分析处理的需求,提出了一种针对不同类型用户的不同行为数据的加权及动态采集方法,在一定程度上解决了不同类型数据对画像结果的不同影响和使用海量数据的情况下实时预测用户的兴趣的问题。附图说明图1是本专利技术一种用于动态画像的用户行为数据采集和加权方法的流程图;图2为本专利技术一种用于动态画像的用户行为数据采集和加权方法中采用的艾宾浩斯记忆曲线图。具体实施方式下面结合附图和具体实施方式对本专利技术进行详细说明。本专利技术一种用于动态画像的用户行为数据采集和加权方法,如图1所示,以博客用户的用户行为为例,此方法同样适用于CSDN、维基百科、小视频等用户的用户行为,具体按照以下步骤实施:步骤1、将用户分为自主发表博客的用户和无自主发表博客的用户,没有自主发表博客的用户,其用户行为有浏览博客、转发博客、收藏博客、点赞博客、用户关注对象;发表过博客的用户,其用户行为有发表博客、转发博客、收藏博客、点赞博客、浏览博客、用户关本文档来自技高网
...

【技术保护点】
1.一种用于动态画像的用户行为数据采集和加权方法,其特征在于,具体按照以下步骤实施:/n步骤1、将用户分为自主发布用户和无自主发布用户,以时间T为一个时间片段对时间进行划分,采集当前时间片段和该时间片段以前三个时间片段的用户行为数据,共N个数据;/n步骤2、对不同用户行为的内容赋予不同的权重系数,对同一用户的N个内容的权重系数进行归一化处理,将处理后的权重系数赋予该内容;/n步骤3、对根据步骤1得到的N个数据做分类,得到N个42维的标签向量,利用每个内容对应的权重系数与内容对应的标签向量得到该内容带权的标签向量,对N个带权的标签向量加权求和,得到一个标签向量,选取前三的3个标签作为用户的兴趣爱好。/n

【技术特征摘要】
1.一种用于动态画像的用户行为数据采集和加权方法,其特征在于,具体按照以下步骤实施:
步骤1、将用户分为自主发布用户和无自主发布用户,以时间T为一个时间片段对时间进行划分,采集当前时间片段和该时间片段以前三个时间片段的用户行为数据,共N个数据;
步骤2、对不同用户行为的内容赋予不同的权重系数,对同一用户的N个内容的权重系数进行归一化处理,将处理后的权重系数赋予该内容;
步骤3、对根据步骤1得到的N个数据做分类,得到N个42维的标签向量,利用每个内容对应的权重系数与内容对应的标签向量得到该内容带权的标签向量,对N个带权的标签向量加权求和,得到一个标签向量,选取前三的3个标签作为用户的兴趣爱好。


2.根据权利要求1所述的一种用于动态画像的用户行为数据采集和加权方法,其特征在于,所述步骤1中自主发布用户的用户行为包括发布、转发、收藏、浏览、点赞、关注;无自主发布用户的用户行为包括转发、收藏、浏览、点赞、关注。


3.根据权利要求2所述的一种用于动态画像的用户行为数据采集和加权方法,其特征在于,所述步骤1中采集用户行为数据具体按照以下步骤实施:
步骤1.1、根据艾宾浩斯记忆曲线得到一个个性化的时间衰减函数,该函数为某时间片段采集用户行为数据的权重系数;
步骤1.2、分别对自主发布用户和无自主发布用户的不同用户行为按比例采集数据,在当前时间片段和该时间片段以前三个时间片段内一共采集N个数据;
步骤1.3、根据步骤1.1中的权重系数计算公式计算不同用户行为在不同时间片段需要采集的数据数量。


4.根据权利要求3所述的一种用于动态画像的用户行为数据采集和加权方法,其特征在于,所述步骤1.1具体按照以下步骤实施:
步骤1.1.1、使用幂函数拟合艾宾浩斯记忆曲线,拟合函数如公式(1)所示:
L(t)=32.03(tc-t0)-0.1236(1)
其中,L(t)表示记忆残存量百分比,t0是用户记忆时刻,tc是记忆残存量的时刻,时间t的单位是天;
步骤1.1.2、对公式(1)做调整,得到个性化的时间衰减函数如公式(2):
L(i)=32.03[(i-1/2)k]-0.1236i=1、2、3、4(2)
定义当前时间段为第1个时间片段,随着时间的向前推移,分别为第2、3、4个...

【专利技术属性】
技术研发人员:朱欣娟赵璟博罗云川吴哲高岭
申请(专利权)人:西安工程大学文化和旅游部全国公共文化发展中心
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1