一种基于OTT设备的家庭画像构建方法及系统技术方案

技术编号:26173801 阅读:22 留言:0更新日期:2020-10-31 13:58
本发明专利技术提供了一种基于OTT设备的家庭画像构建方法及系统,包括:根据电视家庭观看视频的数据,利用聚类分析建立视频的剧情描述标签;基于预设规则要求的偏好特征建立身份标签模型,得到已知身份标签和已知身份特征的特征数据;按照半监督学习的方式,根据已知身份标签及特征数据、未知身份标签和特征数据建立家庭画像的批量身份标签模型,并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练;通过训练后的家庭画像的批量身份标签模型计算结果,统计家庭成员的身份标签,打出家庭成员单个标签和组合标签;本发明专利技术基于家庭画像标签体系中的非主要成员的观影偏好,调整实际推荐策略,明显提高这部分可挖掘用户的推荐效果。

【技术实现步骤摘要】
一种基于OTT设备的家庭画像构建方法及系统
本专利技术涉及智能内容推荐
,具体地,涉及一种基于OTT设备的家庭画像构建方法及系统。
技术介绍
近年来,互联网电视快速发展。据第44次中国互联网络发展状况统计报告显示,截至2019年6月,我国网络视频用户规模达7.59亿,较2018年底增长3265万,占网民整体的88.8%,我国网民使用电视上网的比例为33.1%。用互联网电视观看在线视频已成为广大家庭生活中不可或缺的一部分。互联网电视媒体也发生了明显变化,媒介资源实现了共享,媒介内容逐渐转向观众需求,媒体的采编方式也实现了多样性。互联网电视操作系统不断提升,拥有更加开放的应用平台。电视媒体也不再局限于传统采编方式,而是与手机,电脑等多媒体资源实现互通。尽管有很多平台竞争,电视仍然是大部分家庭日常不可或缺的一部分。与传统地面电视,卫星电视和有线电视相比,互联网电视协议(IPTV)使观看体验更具个性化和交互性。视频内容更加丰富多彩,用户可以选择与自己偏好相同的内容进行观看。看电视不再意味着定时等待在屏幕前,当用户观看视频时,没有找到自己喜欢的内容,可以通过视频点播来自主选择。如果用户错过喜欢视频的播放时间或想重新观看影片时,也可以通过在线视频推荐来追剧。互联网电视操作更加灵活,内容更加丰富多样,越来越贴合用户体验偏好。互联网电视的出现使用户观影体验更具个性化。在用户搜索页面,用户可以通过语音或者文本搜索自己想看的影片。当用户点击进入影片详情页时,展示出影片的具体描述信息和与当前影片相关的热播推荐。用户可以在主页面上快速找到自己感兴趣的视频类别。在观看历史中不仅仅可以找到自己近期打开过的应用,还能在下方位置看到与用户相关的最近比较流行的影片。分析家庭用户的观影时间对提升用户体验至关重要。在家庭用户中,每位家庭成员的观影时段有所不同,观影喜好也有所不同。从家庭角度出发,用户对传统电视和视频点播的观影习惯是有所不同的。家庭用户的观影习惯在工作日,周末以及节假日时会分开处理。根据观影内容结合观影习惯,总结出家庭中同时段观影人数,家庭分时段的观影偏好。互联网电视会通过观察用户具体操作行为给用户分群,挑拣出重点目标人群。研究每个时段家庭中用户的具体身份以及喜好,模拟出具体用户的观影习惯,不仅能提升观影体验,还能增加用户粘性。根据用户观影偏好以及家庭身份画像,设计出更符合用户体验的推荐算法。在实际业务中,千人千面的视频推荐算法往往比千人十面的视频推荐算法更具合理性。推荐用户喜欢的影片比推荐热度较高的影片更具人性化设计,更能提高用户体验性。专利文献CN107124653A(申请号:2017103433272)公开了一种电视用户画像的构建方法,所述的方法包括以下步骤:步骤一、通过数据平台采集电视终端用户的数据并解析分类;步骤二、预定义电视用户画像标签;步骤三、对B类数据进行分类,构建B类数据电视用户画像一级标签;步骤四、对C类数据进行分类,构建C类数据电视用户画像一级标签;步骤五、构建B类和C类数据电视用户画像二级标签;步骤六、将电视用户画像每类一级标签和二标签进行合并统计;步骤七、分析电视用户的节目类型偏好属性数据,构建电视用户画像标签;步骤八、将构建的电视用户画像标签更新预定义的电视用户画像标签。专利文献CN110430471A(申请号:201910672136X)公开了一种基于瞬时计算的电视推荐方法和系统,所述方法包括:获取物品内容数据和用户行为数据,构造内容矩阵和用户矩阵;对于内容矩阵进行层次化文本分类,建立知识图谱;对于用户矩阵进行家庭画像建模;基于内容矩阵和用户矩阵建立推荐模型;根据所述推荐模型,基于当前的物品内容数据向用户进行初始节目推荐;接收用户针对推荐结果的行为数据,基于强化学习对视频推荐模型进行瞬时计算,修正推荐模型,更新推荐结果。专利文献CN108769809A(申请号:2018105206969)公开了一种基于智能电视的家庭用户行为数据采集方法、装置及计算机可读存储介质。本专利技术实施例提供的基于智能电视的家庭用户行为数据采集方法,通过在采集智能电视的用户行为数据的同时采集智能电视所在家庭网络的在线设备数据,采集的数据经处理后生成家庭用户行为日志数据以供云端服务器使用。
技术实现思路
针对现有技术中的缺陷,本专利技术的目的是提供一种基于OTT设备的家庭画像构建方法及系统。根据本专利技术提供的一种基于OTT设备的家庭画像构建方法,包括:步骤M1:根据电视家庭观看视频的数据,利用聚类分析建立视频的剧情描述标签;步骤M2:基于预设规则要求的偏好特征建立身份标签模型,得到已知身份标签和已知身份特征的特征数据;步骤M3:按照半监督学习的方式,根据已知身份标签、已知身份特征的特征数据、未知身份标签和未知身份标签的特征数据建立家庭画像的批量身份标签模型,并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练;步骤M4:通过训练后的家庭画像的批量身份标签模型计算结果,统计家庭成员的身份标签,打出家庭成员单个标签和组合标签;所述身份标签模型依据包括家庭成员的兴趣偏好、观影时间偏好、地区偏好和出品年份偏好,结合实际的业务需求,制定的基于规则的标签模型;通过身份标签模型,可以初步判定家庭成员的身份标签;所述家庭画像的批量身份标签模型根据已知身份标签的行为特征数据,批量学习出未知家庭成员的身份标签。优选地,所述步骤M1包括:步骤M1.1:根据电视家庭观看视频的数据,根据预设要求对原始家庭数据进行筛选,在筛选过的观影记录中提取所有符合自定义规范化要求的剧情分类词语;步骤M1.2:根据实际业务需求,通过数据库切分技术和K-means聚类算法将剧情分类词语拆分成多个单个词语,建立视频的剧情描述标签。优选地,所述步骤M2包括:步骤M2.1:根据收集到的原始家庭数据,通过数据库技术,处理成统一的家庭成员观影记录格式;步骤M2.2:基于处理好的家庭成员观影记录,根据包括年龄和性别,把用户分为预设类,将视频的剧情描述标签映射到每个家庭成员身上;步骤M2.3:把家庭成员的观影时间按照实际需求,分为预设段,基于处理好的视频的剧情描述标签和家庭成员之间的映射关系,结合包括划分好的观影时间,观影地区,出品年份、演员和视频大分类的信息,建立身份标签模型,得到已知成员的身份标签和已知身份标签的特征数据。优选地,所述步骤M3中多种机器学习算法包括:K近邻算法、逻辑回归多分类算法和/或GBDT+LR算法。优选地,所述步骤M3包括:步骤M3.1:所有已知和未知身份标签的特征数据标准化,进行K近邻算法计算,得出对所有家庭成员的概率预测;步骤M3.2:所有已知和未知身份标签的特征数据标准化,将标准化后混合的所有身份特征数据投入逻辑回归多分类算法进行身份预测;步骤M3.3:所有已知和未知身份标签的特征数据标准化,把标准化后混合的所有身份特征数据拆分成预设组,分别进行GBDT特征提取,再进行LR逻辑本文档来自技高网
...

【技术保护点】
1.一种基于OTT设备的家庭画像构建方法,其特征在于,包括:/n步骤M1:根据电视家庭观看视频的数据,利用聚类分析建立视频的剧情描述标签;/n步骤M2:基于预设规则要求的偏好特征建立身份标签模型,得到已知身份标签和已知身份特征的特征数据;/n步骤M3:按照半监督学习的方式,根据已知身份标签、已知身份特征的特征数据、未知身份标签和未知身份标签的特征数据建立家庭画像的批量身份标签模型,并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练;/n步骤M4:通过训练后的家庭画像的批量身份标签模型计算结果,统计家庭成员的身份标签,打出家庭成员单个标签和组合标签,从而得到相应的家庭画像;/n所述身份标签模型依据包括家庭成员的兴趣偏好、观影时间偏好、地区偏好和出品年份偏好,结合实际的业务需求,制定的基于规则的标签模型;通过身份标签模型,初步判定家庭成员的身份标签;/n所述家庭画像的批量身份标签模型根据已知身份标签的行为特征数据,批量学习出未知家庭成员的身份标签。/n

【技术特征摘要】
1.一种基于OTT设备的家庭画像构建方法,其特征在于,包括:
步骤M1:根据电视家庭观看视频的数据,利用聚类分析建立视频的剧情描述标签;
步骤M2:基于预设规则要求的偏好特征建立身份标签模型,得到已知身份标签和已知身份特征的特征数据;
步骤M3:按照半监督学习的方式,根据已知身份标签、已知身份特征的特征数据、未知身份标签和未知身份标签的特征数据建立家庭画像的批量身份标签模型,并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练;
步骤M4:通过训练后的家庭画像的批量身份标签模型计算结果,统计家庭成员的身份标签,打出家庭成员单个标签和组合标签,从而得到相应的家庭画像;
所述身份标签模型依据包括家庭成员的兴趣偏好、观影时间偏好、地区偏好和出品年份偏好,结合实际的业务需求,制定的基于规则的标签模型;通过身份标签模型,初步判定家庭成员的身份标签;
所述家庭画像的批量身份标签模型根据已知身份标签的行为特征数据,批量学习出未知家庭成员的身份标签。


2.根据权利要求1所述的基于OTT设备的家庭画像构建方法,其特征在于,所述步骤M1包括:
步骤M1.1:根据电视家庭观看视频的数据,根据预设要求对原始家庭数据进行筛选,在筛选过的观影记录中提取所有符合自定义规范化要求的剧情分类词语;
步骤M1.2:根据实际业务需求,通过数据库切分技术和K-means聚类算法将剧情分类词语拆分成多个单个词语,建立视频的剧情描述标签。


3.根据权利要求1所述的基于OTT设备的家庭画像构建方法,其特征在于,所述步骤M2包括:
步骤M2.1:根据收集到的原始家庭数据,通过数据库技术,处理成统一的家庭成员观影记录格式;
步骤M2.2:基于处理好的家庭成员观影记录,根据包括年龄和性别,把用户分为预设类,将视频的剧情描述标签映射到每个家庭成员身上;
步骤M2.3:把家庭成员的观影时间按照实际需求,分为预设段,基于处理好的视频的剧情描述标签和家庭成员之间的映射关系,结合包括划分好的观影时间,观影地区,出品年份、演员和视频大分类的信息,建立身份标签模型,得到已知成员的身份标签和已知身份标签的特征数据。


4.根据权利要求1所述的基于OTT设备的家庭画像构建方法,其特征在于,所述步骤M3中多种机器学习算法包括:K近邻算法、逻辑回归多分类算法和/或GBDT+LR算法。


5.根据权利要求1所述的基于OTT设备的家庭画像构建方法,其特征在于,所述步骤M3包括:
步骤M3.1:所有已知和未知身份标签的特征数据标准化,进行K近邻算法计算,得出对所有家庭成员的概率预测;
步骤M3.2:所有已知和未知身份标签的特征数据标准化,将标准化后混合的所有身份特征数据投入逻辑回归多分类算法进行身份预测;
步骤M3.3:所有已知和未知身份标签的特征数据标准化,把标准化后混合的所有身份特征数据拆分成预设组,分别进行GBDT特征提取,再进行LR逻辑回归二分类的身份预测。


6.根据权利要求5所述的基于OTT设备的家庭画像构建方法,其特征在于,所述步骤M4包括:通过对比和分析包括K近邻算法,逻辑回归多分类和GBDT+LR二分类多种机器学习...

【专利技术属性】
技术研发人员:叶凤王翔张玉新
申请(专利权)人:上海视九信息科技有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1