一种用于动态画像的用户行为数据采集和加权方法技术

技术编号：26170953 阅读：26 留言：0更新日期：2020-10-31 13:40

本发明专利技术公开了一种用于动态画像的用户行为数据采集和加权方法，具体按照以下步骤实施：1、将用户分为自主发布用户和无自主发布用户，以时间T为一个时间片段对时间进行划分，采集四个时间片段的用户行为数据，共N个数据；2、对不同用户行为的内容赋予不同的权重系数，对同一用户的N个内容的权重系数进行归一化处理，将处理后的权重系数赋予该内容；3、对根据步骤1得到的N个数据做分类，得到N个42维的标签向量，对每个内容对应的权重系数与内容对应的标签向量进行计算处理，选取前三的3个标签作为用户的兴趣爱好。通过本发明专利技术的方法可以提高实时用户兴趣预测的精确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于动态画像的用户行为数据采集和加权方法
本专利技术属于大数据用户行为数据分析挖掘处理
，涉及一种用于动态画像的用户行为数据采集和加权方法。
技术介绍
移动互联网时代，精细化运营逐渐成为企业发展的重要竞争力，“用户画像”的概念也应运而生。用户画像是指，在大数据时代，通过对用户产生的海量行为数据信息进行清洗、聚类、分析、挖掘，将用户的行为数据抽象成标签，再利用这些标签将用户形象具体化的过程。用户画像的建立能够帮助企业更好地为用户提供针对性的服务。在web2.0时代，网络上内容的产出主要是用户，每一个用户都可以生成自己的内容。如CSDN、维基百科等网站是为了普及网友的知识和为网友解决疑问的，用户每天在这些网站上产生各种行为数据，通过分析用户在这些网站上的行为数据可以预测用户的兴趣偏好信息。CSDN是一个专门普及计算机领域知识的论坛，其用户每天产生了大量不同种类的行为数据。例如，用户发表博客，用户转载博客，用户收藏博客，用户点赞博客，用户浏览博客，用户关注其他用户对象等。这些行为数据反映了用户的不同兴趣，如何根据这些行为数据对用户动态画像是近期计算机领域研究的焦点问题现有的用户画像已有多种方法，但这些方法目前存在两个问题：①用户行为分发表、转发、收藏、浏览、点赞、关注多种，根据行为的不同可以将用户行为内容数据分为多种类型，现有的方法没有突出不同类型用户的不同种类行为对用户画像的不同贡献。②每个用户都有自己的特点，根据行为数据产生的周期和频率不同，用户在不同时间段产生的行为及内容数据的数量也不同。分...

【技术保护点】
1.一种用于动态画像的用户行为数据采集和加权方法，其特征在于，具体按照以下步骤实施：/n步骤1、将用户分为自主发布用户和无自主发布用户，以时间T为一个时间片段对时间进行划分，采集当前时间片段和该时间片段以前三个时间片段的用户行为数据，共N个数据；/n步骤2、对不同用户行为的内容赋予不同的权重系数，对同一用户的N个内容的权重系数进行归一化处理，将处理后的权重系数赋予该内容；/n步骤3、对根据步骤1得到的N个数据做分类，得到N个42维的标签向量，利用每个内容对应的权重系数与内容对应的标签向量得到该内容带权的标签向量，对N个带权的标签向量加权求和，得到一个标签向量，选取前三的3个标签作为用户的兴趣爱好。/n

【技术特征摘要】
1.一种用于动态画像的用户行为数据采集和加权方法，其特征在于，具体按照以下步骤实施：
步骤1、将用户分为自主发布用户和无自主发布用户，以时间T为一个时间片段对时间进行划分，采集当前时间片段和该时间片段以前三个时间片段的用户行为数据，共N个数据；
步骤2、对不同用户行为的内容赋予不同的权重系数，对同一用户的N个内容的权重系数进行归一化处理，将处理后的权重系数赋予该内容；
步骤3、对根据步骤1得到的N个数据做分类，得到N个42维的标签向量，利用每个内容对应的权重系数与内容对应的标签向量得到该内容带权的标签向量，对N个带权的标签向量加权求和，得到一个标签向量，选取前三的3个标签作为用户的兴趣爱好。

2.根据权利要求1所述的一种用于动态画像的用户行为数据采集和加权方法，其特征在于，所述步骤1中自主发布用户的用户行为包括发布、转发、收藏、浏览、点赞、关注；无自主发布用户的用户行为包括转发、收藏、浏览、点赞、关注。

3.根据权利要求2所述的一种用于动态画像的用户行为数据采集和加权方法，其特征在于，所述步骤1中采集用户行为数据具体按照以下步骤实施：
步骤1.1、根据艾宾浩斯记忆曲线得到一个个性化的时间衰减函数，该函数为某时间片段采集用户行为数据的权重系数；
步骤1.2、分别对自主发布用户和无自主发布用户的不同用户行为按比例采集数据，在当前时间片段和该时间片段以前三个时间片段内一共采集N个数据；
步骤1.3、根据步骤1.1中的权重系数计算公式计算不同用户行为在不同时间片段需要采集的数据数量。

4.根据权利要求3所述的一种用于动态画像的用户行为数据采集和加权方法，其特征在于，所述步骤1.1具体按照以下步骤实施：
步骤1.1.1、使用幂函数拟合艾宾浩斯记忆曲线，拟合函数如公式(1)所示：
L(t)＝32.03(tc-t0)-0.1236(1)
其中，L(t)表示记忆残存量百分比，t0是用户记忆时刻，tc是记忆残存量的时刻，时间t的单位是天；
步骤1.1.2、对公式(1)做调整，得到个性化的时间衰减函数如公式(2)：
L(i)＝32.03[(i-1/2)k]-0.1236i＝1、2、3、4(2)
定义当前时间段为第1个时间片段，随着时间的向前推移，分别为第2、3、4个...

【专利技术属性】
技术研发人员：朱欣娟，赵璟博，罗云川，吴哲，高岭，
申请(专利权)人：西安工程大学，文化和旅游部全国公共文化发展中心，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人