用户属性的识别方法及装置制造方法及图纸

技术编号:12218256 阅读:109 留言:0更新日期:2015-10-21 20:05
本发明专利技术公开了一种用户属性的识别方法及装置,属于网络技术领域。方法包括:获取第一样本用户集合;获取第一样本用户集合中用户的第一播放记录集合;对第一样本用户集合以及第一播放记录集合进行筛选,得到第二样本用户集合和第二播放记录集合;基于第二样本用户集合和第二播放记录集合,生成特征矩阵;基于特征矩阵中的特征向量和特征向量的属性信息,构建分类模型;根据待识别用户的播放记录,生成待识别用户的特征向量;将待识别用户的特征向量输入分类模型,输出待识别用户的用户属性。本发明专利技术通过待识别用户的历史播放记录,预测该待识别用户的性别、年龄等属性信息,以获取进行用户服务的基础,可以提高如多媒体推荐等用户服务的准确性。

【技术实现步骤摘要】

本专利技术涉及网络
,特别涉及一种用户属性的识别方法及装置
技术介绍
随着网络技术的发展,越来越多的用户利用网络进行各种与多媒体相关的娱乐活 动,如上网听歌或看电影等等。而由于信息量的爆炸式增长,使得用户很难在海量信息中快 速的找到自己感兴趣的多媒体文件。 为了解决这一问题,很多网络服务提供了推荐功能,如根据用户的属性、偏好等信 息为用户进行针对性的推荐。在现实生活中,如性别、年龄等属性的不同会造成用户对多媒 体文件类型的偏好产生很大差异,因此,用户属性可以认为是对推荐准确率的影响较大的 一个因素。 -般地,用户属性可以体现在用户的个人资料中,然而,在实际使用中,绝大多数 用户均不会完善自己的个人资料,使得对这类用户的推荐准确率较低,间接影响到了用户 对应用的使用观感,影响网络服务的用户粘度,因此,亟需一种用户属性的识别方法,以解 决现有技术中出现的问题。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种用户属性的识别方法及装 置。所述技术方案如下: 一方面,本专利技术实施例提供了一种用户属性的识别方法,所述方法包括: 获取第一样本用户集合,所述第一样本用户集合中包括在平台上注册并保存有属 性信息的用户; 获取所述第一样本用户集合中用户的第一播放记录集合,所述第一播放记录集合 包括用户所播放的多媒体文件信息; 对所述第一样本用户集合以及第一播放记录集合进行筛选,得到第二样本用户集 合和第二播放记录集合; 基于所述第二样本用户集合和第二播放记录集合,生成特征矩阵,所述特征矩阵 包括所述第二样本用户集合中每个用户的特征向量,所述每个用户的特征向量根据所述每 个用户所播放的多媒体文件信息生成; 基于所述特征矩阵中的特征向量和所述特征向量的属性信息,构建分类模型; 根据待识别用户的播放记录,生成所述待识别用户的特征向量; 将所述待识别用户的特征向量输入所述分类模型,输出所述待识别用户的用户属 性。 可选地,获取所述第一样本用户集合中用户的第一播放记录集合包括: 获取所述第一样本用户集合中各个用户在预设时间段内所播放的多媒体文件信 息。 可选地,所述对所述第一样本用户集合以及第一播放记录集合进行筛选,得到第 二样本用户集合和第二播放记录集合,包括: 从所述第一样本用户集合中筛选掉预设时间段内播放多媒体文件数少于第一预 设阈值的用户,得到第二样本用户集合; 从所述第一播放记录集合中筛选掉所述预设时间段内播放人数少于第二预设阈 值的多媒体文件,得到第二播放记录集合。 可选地,基于所述第二样本用户集合和第二播放记录集合,生成特征矩阵包括: 对于所述第二样本用户集合中的任一个用户,统计所述用户播放过的每个多媒体 文件在所述第二播放记录集合中的词频和逆文档频率; 根据所述用户经统计得到的每个多媒体文件的词频和逆文档频率,生成每个多媒 体文件的向量元素; 将所述每个多媒体文件的向量元素组合,得到所述用户的播放分值向量; 将所述第二样本用户集合中的每个用户的播放分值向量组合,得到播放分值矩 阵; 将所述播放分值矩阵进行降维,按照降维后的特征值从大到小排列,并选取前第 一预设数目个向量组成特征矩阵。 可选地,基于所述特征矩阵中的特征向量和所述特征向量的属性信息,构建分类 模型包括: 基于所述特征矩阵中的第一特征向量和所述第一特征向量的属性信息进行训练, 生成初始分类模型,所述第一特征向量为前第二预设数目个特征向量; 基于所述特征矩阵中的第二特征向量和所述第二特征向量的属性信息对所述初 始分类模型进行验证和调整,得到所述分类模型,所述第二特征向量为所述特征矩阵中除 所述第一特征向量以外的特征向量。 另一方面,本专利技术实施例提供了一种用户属性的识别装置,所述装置包括: 用户集合获取模块,用于获取第一样本用户集合,所述第一样本用户集合中包括 在平台上注册并保存有属性信息的用户; 播放集合获取模块,用于获取所述第一样本用户集合中用户的第一播放记录集 合,所述第一播放记录集合包括用户所播放的多媒体文件信息; 筛选模块,用于对所述第一样本用户集合以及第一播放记录集合进行筛选,得到 第二样本用户集合和第二播放记录集合; 矩阵生成模块,用于基于所述第二样本用户集合和第二播放记录集合,生成特征 矩阵,所述特征矩阵包括所述第二样本用户集合中每个用户的特征向量,所述每个用户的 特征向量根据所述每个用户所播放的多媒体文件信息生成; 建模模块,用于基于所述特征矩阵中的特征向量和所述特征向量的属性信息,构 建分类模型; 向量生成模块,用于根据待识别用户的播放记录,生成所述待识别用户的特征向 量; 识别模块,用于将所述待识别用户的特征向量输入所述分类模型,输出所述待识 别用户的用户属性。 可选地,所述播放集合获取模块用于获取所述第一样本用户集合中各个用户在预 设时间段内所播放的多媒体文件信息。 可选地,所述筛选模块用于从所述第一样本用户集合中筛选掉预设时间段内播放 多媒体文件数少于第一预设阈值的用户,得到第二样本用户集合;从所述第一播放记录集 合中筛选掉所述预设时间段内播放人数少于第二预设阈值的多媒体文件,得到第二播放记 录集合。 可选地,所述矩阵生成模块用于对于所述第二样本用户集合中的任一个用户,统 计所述用户播放过的每个多媒体文件在所述第二播放记录集合中的词频和逆文档频率;根 据所述用户经统计得到的每个多媒体文件的词频和逆文档频率,生成每个多媒体文件的向 量元素;将所述每个多媒体文件的向量元素组合,得到所述用户的播放分值向量;将所述 第二样本用户集合中的每个用户的播放分值向量组合,得到播放分值矩阵;将所述播放分 值矩阵进行降维,按照降维后的特征值从大到小排列,并选取前第一预设数目个向量组成 特征矩阵。 可选地,所述建模模块用于基于所述特征矩阵中的第一特征向量和所述第一特征 向量的属性信息进行训练,生成初始分类模型,所述第一特征向量为前第二预设数目个特 征向量;基于所述特征矩阵中的第二特征向量和所述第二特征向量的属性信息对所述初始 分类模型进行验证和调整,得到所述分类模型,所述第二特征向量为所述特征矩阵中除所 述第一特征向量以外的特征向量。 本专利技术实施例提供的技术方案带来的有益效果是: 通过利用一些已经留下属性信息的用户对多媒体文件的播放记录进行建模,可以 得到用于进行属性识别的分类模型,从而可以基于待识别用户的历史播放记录,预测该待 识别用户的性别、年龄等属性信息,以获取进行用户服务的基础,可以提高如多媒体推荐等 用户服务的准确性。【附图说明】 为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使 用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于 本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他 的附图。 图1是本专利技术实施例提供的一种用户属性的识别方法的流程图; 图2是本专利技术实施例提供的一种用户属性的识别方法的流程图; 图3是本专利技术实施例提供的一种用户属性的识别装置结构示意图; 图4是根据一示例性实施例示出的一种用于用户属性的识别的装置400的框图。【具体实施方式】 为使本专利技术的目的当前第1页1 2 3 4&n本文档来自技高网...
用户属性的识别方法及装置

【技术保护点】
一种用户属性的识别方法,其特征在于,所述方法包括:获取第一样本用户集合,所述第一样本用户集合中包括在平台上注册并保存有属性信息的用户;获取所述第一样本用户集合中用户的第一播放记录集合,所述第一播放记录集合包括用户所播放的多媒体文件信息;对所述第一样本用户集合以及第一播放记录集合进行筛选,得到第二样本用户集合和第二播放记录集合;基于所述第二样本用户集合和第二播放记录集合,生成特征矩阵,所述特征矩阵包括所述第二样本用户集合中每个用户的特征向量,所述每个用户的特征向量根据所述每个用户所播放的多媒体文件信息生成;基于所述特征矩阵中的特征向量和所述特征向量的属性信息,构建分类模型;根据待识别用户的播放记录,生成所述待识别用户的特征向量;将所述待识别用户的特征向量输入所述分类模型,输出所述待识别用户的用户属性。

【技术特征摘要】

【专利技术属性】
技术研发人员:林锡雄
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1