一种基于OTT设备的家庭画像构建方法及系统技术方案

技术编号：26173801 阅读：22 留言：0更新日期：2020-10-31 13:58

本发明专利技术提供了一种基于OTT设备的家庭画像构建方法及系统，包括：根据电视家庭观看视频的数据，利用聚类分析建立视频的剧情描述标签；基于预设规则要求的偏好特征建立身份标签模型，得到已知身份标签和已知身份特征的特征数据；按照半监督学习的方式，根据已知身份标签及特征数据、未知身份标签和特征数据建立家庭画像的批量身份标签模型，并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练；通过训练后的家庭画像的批量身份标签模型计算结果，统计家庭成员的身份标签，打出家庭成员单个标签和组合标签；本发明专利技术基于家庭画像标签体系中的非主要成员的观影偏好，调整实际推荐策略，明显提高这部分可挖掘用户的推荐效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于OTT设备的家庭画像构建方法及系统
本专利技术涉及智能内容推荐
，具体地，涉及一种基于OTT设备的家庭画像构建方法及系统。
技术介绍
近年来，互联网电视快速发展。据第44次中国互联网络发展状况统计报告显示，截至2019年6月，我国网络视频用户规模达7.59亿，较2018年底增长3265万，占网民整体的88.8％，我国网民使用电视上网的比例为33.1％。用互联网电视观看在线视频已成为广大家庭生活中不可或缺的一部分。互联网电视媒体也发生了明显变化，媒介资源实现了共享，媒介内容逐渐转向观众需求，媒体的采编方式也实现了多样性。互联网电视操作系统不断提升，拥有更加开放的应用平台。电视媒体也不再局限于传统采编方式，而是与手机，电脑等多媒体资源实现互通。尽管有很多平台竞争，电视仍然是大部分家庭日常不可或缺的一部分。与传统地面电视，卫星电视和有线电视相比，互联网电视协议(IPTV)使观看体验更具个性化和交互性。视频内容更加丰富多彩，用户可以选择与自己偏好相同的内容进行观看。看电视不再意味着定时等待在屏幕前，当用户观看视频时，没有找到自己喜欢的内容，可以通过视频点播来自主选择。如果用户错过喜欢视频的播放时间或想重新观看影片时，也可以通过在线视频推荐来追剧。互联网电视操作更加灵活，内容更加丰富多样，越来越贴合用户体验偏好。互联网电视的出现使用户观影体验更具个性化。在用户搜索页面，用户可以通过语音或者文本搜索自己想看的影片。当用户点击进入影片详情页时，展示出影片的具体描述信息和与当前影片相关的热播推荐。用户可以在主页...

【技术保护点】
1.一种基于OTT设备的家庭画像构建方法，其特征在于，包括：/n步骤M1：根据电视家庭观看视频的数据，利用聚类分析建立视频的剧情描述标签；/n步骤M2：基于预设规则要求的偏好特征建立身份标签模型，得到已知身份标签和已知身份特征的特征数据；/n步骤M3：按照半监督学习的方式，根据已知身份标签、已知身份特征的特征数据、未知身份标签和未知身份标签的特征数据建立家庭画像的批量身份标签模型，并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练；/n步骤M4：通过训练后的家庭画像的批量身份标签模型计算结果，统计家庭成员的身份标签，打出家庭成员单个标签和组合标签，从而得到相应的家庭画像；/n所述身份标签模型依据包括家庭成员的兴趣偏好、观影时间偏好、地区偏好和出品年份偏好，结合实际的业务需求，制定的基于规则的标签模型；通过身份标签模型，初步判定家庭成员的身份标签；/n所述家庭画像的批量身份标签模型根据已知身份标签的行为特征数据，批量学习出未知家庭成员的身份标签。/n

【技术特征摘要】
1.一种基于OTT设备的家庭画像构建方法，其特征在于，包括：
步骤M1：根据电视家庭观看视频的数据，利用聚类分析建立视频的剧情描述标签；
步骤M2：基于预设规则要求的偏好特征建立身份标签模型，得到已知身份标签和已知身份特征的特征数据；
步骤M3：按照半监督学习的方式，根据已知身份标签、已知身份特征的特征数据、未知身份标签和未知身份标签的特征数据建立家庭画像的批量身份标签模型，并利用多种机器学习算法周期性的对家庭画像的批量身份标签模型进行学习训练；
步骤M4：通过训练后的家庭画像的批量身份标签模型计算结果，统计家庭成员的身份标签，打出家庭成员单个标签和组合标签，从而得到相应的家庭画像；
所述身份标签模型依据包括家庭成员的兴趣偏好、观影时间偏好、地区偏好和出品年份偏好，结合实际的业务需求，制定的基于规则的标签模型；通过身份标签模型，初步判定家庭成员的身份标签；
所述家庭画像的批量身份标签模型根据已知身份标签的行为特征数据，批量学习出未知家庭成员的身份标签。

2.根据权利要求1所述的基于OTT设备的家庭画像构建方法，其特征在于，所述步骤M1包括：
步骤M1.1：根据电视家庭观看视频的数据，根据预设要求对原始家庭数据进行筛选，在筛选过的观影记录中提取所有符合自定义规范化要求的剧情分类词语；
步骤M1.2：根据实际业务需求，通过数据库切分技术和K-means聚类算法将剧情分类词语拆分成多个单个词语，建立视频的剧情描述标签。

3.根据权利要求1所述的基于OTT设备的家庭画像构建方法，其特征在于，所述步骤M2包括：
步骤M2.1：根据收集到的原始家庭数据，通过数据库技术，处理成统一的家庭成员观影记录格式；
步骤M2.2：基于处理好的家庭成员观影记录，根据包括年龄和性别，把用户分为预设类，将视频的剧情描述标签映射到每个家庭成员身上；
步骤M2.3：把家庭成员的观影时间按照实际需求，分为预设段，基于处理好的视频的剧情描述标签和家庭成员之间的映射关系，结合包括划分好的观影时间，观影地区，出品年份、演员和视频大分类的信息，建立身份标签模型，得到已知成员的身份标签和已知身份标签的特征数据。

4.根据权利要求1所述的基于OTT设备的家庭画像构建方法，其特征在于，所述步骤M3中多种机器学习算法包括：K近邻算法、逻辑回归多分类算法和/或GBDT+LR算法。

5.根据权利要求1所述的基于OTT设备的家庭画像构建方法，其特征在于，所述步骤M3包括：
步骤M3.1：所有已知和未知身份标签的特征数据标准化，进行K近邻算法计算，得出对所有家庭成员的概率预测；
步骤M3.2：所有已知和未知身份标签的特征数据标准化，将标准化后混合的所有身份特征数据投入逻辑回归多分类算法进行身份预测；
步骤M3.3：所有已知和未知身份标签的特征数据标准化，把标准化后混合的所有身份特征数据拆分成预设组，分别进行GBDT特征提取，再进行LR逻辑回归二分类的身份预测。

6.根据权利要求5所述的基于OTT设备的家庭画像构建方法，其特征在于，所述步骤M4包括：通过对比和分析包括K近邻算法，逻辑回归多分类和GBDT+LR二分类多种机器学习...

【专利技术属性】
技术研发人员：叶凤，王翔，张玉新，
申请(专利权)人：上海视九信息科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人