基于主题模型的家庭成员属性预测方法、装置及智能终端制造方法及图纸

技术编号:20485053 阅读:20 留言:0更新日期:2019-03-02 19:02
本发明专利技术提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端,方法包括:获取媒资库中各视频在各个主题上的概率分布;根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布;利用用户的主题偏好概率分布作为逻辑回归模型的输入特征,得到逻辑回归模型输出的多种用户属性的概率分布;根据多种用户属性的概率分布统计出符合显著属性特性的属性数量,将所述符合显著属性特性的属性数量确认为家庭成员的数量,并记录各个家庭成员对应的用户属性。本申请提供的家庭成员属性预测方法能够极大地提升家庭成员属性特征覆盖度,有效地丰富了大屏用户画像人群基本属性维度。

【技术实现步骤摘要】
基于主题模型的家庭成员属性预测方法、装置及智能终端
本公开涉及计算机数据挖掘
,尤其涉及一种基于主题模型的家庭成员属性预测方法、装置及智能终端。
技术介绍
目前,各大视频网站为了提升产品服务和提高企业利润,在产品与用户交互的各个业务领域实施了越来越多的以用户画像(即通过对人群基本属性、行为习惯、商业价值等多种维度信息数据的综合分析结果)为基础的大数据优化策略。例如,为了提升用户体验,增加用户粘性,将视频个性化地组织推荐给用户,或者为提升广告投放精准度,提高投入产出比,进行广告个性化投放等。区别于移动设备,大屏设备为家庭共用设备,对于大部分设备而言,其用户角色超过一种,不同性别、年龄段的用户角色的行为模式及偏好可能存在较大差异,因此,用户画像人群基本属性中家庭成员属性的扩充对完备用户画像维度,以及对推荐系统、广告系统、搜索引擎的优化等方面至关重要。
技术实现思路
本专利技术实施例中提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端,以解决现有技术中针对大屏设备的用户画像中缺少家庭成员属性分析的问题。第一方面,本专利技术提供了一种基于主题模型的家庭成员属性预测方法,包括:获取媒资库中各视频在各个主题上的概率分布;根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布;利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征,得到逻辑回归模型输出的多种用户属性的概率分布,所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本;根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量,将所述符合显著属性特性的属性数量确认为家庭成员的数量,并记录各个家庭成员对应的用户属性。第二方面,本专利技术提供了一种基于主题模型的家庭成员属性预测装置,包括:获取模块,用于获取媒资库中各视频在各个主题上的概率分布;生成模块,用于根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布;输出模块,用于利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征,得到逻辑回归模型输出的多种用户属性的概率分布,所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本;统计模块,用于根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量,将所述符合显著属性特性的属性数量确认为家庭成员的数量,并记录各个家庭成员对应的用户属性。第三方面,本专利技术提供了一种智能终端,包括上述的基于主题模型的家庭成员属性预测装置。本申请的有益效果如下:本专利技术提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端,方法包括:获取媒资库中各视频在各个主题上的概率分布;根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布;利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征,得到逻辑回归模型输出的多种用户属性的概率分布,所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本;根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量,将所述符合显著属性特性的属性数量确认为家庭成员的数量,并记录各个家庭成员对应的用户属性。本申请提供的家庭成员属性预测方法能够极大地提升家庭成员属性特征覆盖度,有效地丰富了大屏用户画像人群基本属性维度。附图说明此处的附图被并入说明书中并构成本说明书的一部分,示出了符合本专利技术的实施例,并与说明书一起用于解释本专利技术的原理。为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种基于主题模型的家庭成员属性预测方法的流程图;图2为本申请实施例提供的一种步骤S200的流程图;图3为本申请实施例提供的一种利用外部数据资源获取用户属性的标准样本的流程图;图4为本申请实施例提供的外部数据资源的示意图;图5为本申请实施例提供的一种步骤S400的流程图;图6为本申请实施例提供的一种基于主题模型的家庭成员属性预测装置的示意图;图7为本申请实施例提供的一种统计模块40的示意图;图8为本申请实施例提供的一种输出模块30的示意图;图9为本申请实施例提供的一种生成模块20的示意图。具体实施方式为了使本
的人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。针对现有技术中针对大屏设备的用户画像中缺少家庭成员属性分析的问题,本申请提供了一种基于主题模型的家庭成员属性预测方法、装置及智能终端,先利用主题模型得到视频在各个主题上的概率值,再根据用户近期观影记录,进而得到用户在各个主题上的偏好程度,作为逻辑回归的特征输入。然后分别用逻辑回归模型预测家庭成员性别及年龄段等属性概率,再结合整个群体的特征值分布情况进行显著性判断,最终得到家庭成员数量值。这样,极大地提升了家庭成员属性特征覆盖度,有效地丰富了大屏用户画像人群基本属性维度。下面结合附图和具体实施例进行详细描述。请参考图1,所示为本申请实施例提供的一种基于主题模型的家庭成员属性预测方法的流程图。由图1可见,该方法包括如下步骤:步骤S100:获取媒资库中各视频在各个主题上的概率分布。本实施例中,采用LDA(英文全称:LatentDirichletAllocation,文档主题生成模型)来获取媒资库中各视频在各个主题上的概率分布,包含文档,主题,词三个层面,文档到主题服从狄利克雷分布,主题到词服从多项式分布。LDA可以用来识别大规模文档集或预料库中的潜在隐藏的主题信息。LDA算法的核心思想:每篇文章由多个主题混合而成的,而每个主题可以由多个词的概率表征。该方法假设每个词是由背后的一个潜在隐藏的主题中抽取的。LDA算法具体的实现流程如下:Step1:构建语料库。对媒资库中视频的Summary(视频简介)、Title(视频名)进行分词处理,与tag(视频标签)、category(视频二级类型,其中,视频一级类型包括电影、电视剧、资讯等,视频二级类型包括爱情、都市、历史、恐怖等)一起构建语料库,将媒资库数据整理成LDA模型要求的输入格式,以电影超时空同居为例,对应的媒资库里的ID为11015785614,处理后的格式为:{11015785614:[“时空”,“重叠”,“意外”,“房间”,“嫌弃”,“试图”,“共谋”,“大业”,“阴差阳错”,“好笑”,“神秘”,,“投机取巧”,“当代”,“感动”,“纯爱”,“友情”,“奇幻”,“超能力”,“穿越”,“搞笑”,“爱情”,“喜剧”,“同居”]}。Step2:将Step1中生成的数据作为LDA模型的输入,同时设置主题数目N(本实施例中N为25)。经测试10-30的主题数目,得到25时聚类效果最好。Step3:LDA模型输出每个视频在各个主题上的概率分布。以电影超时空同居为例,主题模型的训练本文档来自技高网
...

【技术保护点】
1.一种基于主题模型的家庭成员属性预测方法,其特征在于,包括:获取媒资库中各视频在各个主题上的概率分布;根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布;利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征,得到逻辑回归模型输出的多种用户属性的概率分布,所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本;根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量,将所述符合显著属性特性的属性数量确认为家庭成员的数量,并记录各个家庭成员对应的用户属性。

【技术特征摘要】
1.一种基于主题模型的家庭成员属性预测方法,其特征在于,包括:获取媒资库中各视频在各个主题上的概率分布;根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布;利用所述用户的主题偏好概率分布作为逻辑回归模型的输入特征,得到逻辑回归模型输出的多种用户属性的概率分布,所述逻辑回归模型的训练样本为利用外部数据资源获取的用户属性的标准样本;根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量,将所述符合显著属性特性的属性数量确认为家庭成员的数量,并记录各个家庭成员对应的用户属性。2.根据权利要求1所述的方法,其特征在于,根据所述多种用户属性的概率分布统计出符合显著属性特性的属性数量包括:获取用户在多种属性条件下的综合概率分布;获取整个用户群体在所述多种属性下的群体概率分布;统计出所述综合概率高于所述群体概率分布的预设点位的属性数量。3.根据权利要求1所述的方法,其特征在于,利用外部数据资源获取用户属性的标准样本包括:利用内部数据资源获取多个视频观看时间,并利用外部数据资源获取各个视频的观看用户群属性特征概率分布Pi;利用(观看时间i*Pi)计算出用户的属性概率,其中,n为多个视频的数量,1≤i≤n;将所述用户的属性概率做归一化处理,得到用户属性的归一化概率;选取所述归一化概率大于预设阈值的用户作为用户属性的标准样本。4.根据权利要求1所述的方法,其特征在于,所述根据用户对各视频的偏好权重以及各视频在各个主题上的概率分布,生成用户的主题偏好概率分布包括:获取用户观看视频的总时长;根据用户对各视频的观看时长与所述总时长的比例计算得出用户对各视频的偏好权重矩阵;将所述偏好权重矩阵与各视频在各个主题上的概率分布矩阵相乘,得到用户的主题偏好概率分布。5.一种基于主题模型的家庭成员属性预测装置,其特征在于,包括:获取模块,用于获取媒资库中各视频在各个主题上的概率分布;生成模块,用于根据用户对各视频的偏好权重...

【专利技术属性】
技术研发人员:王新杰王洁徐钊
申请(专利权)人:聚好看科技股份有限公司
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1