一种机顶盒数据优化存储方法技术

技术编号:38877353 阅读:16 留言:0更新日期:2023-09-22 14:10
本发明专利技术涉及机顶盒数据处理技术领域,具体涉及一种机顶盒数据优化存储方法。该方法根据用户在每天内日志数据量的波动情况获取用户的观影置信度,依据用户的每种类型天的日志数据的时间间隔之间的差异,获取每种类型的天的间隔离散值,并结合每天的日志数据量的波动情况获取用户的习惯特征值;结合用户在每个时间段的均观影时长、观影置信度与习惯特征值,获取每个时间段的优化均观影时长,并依据其与各用户在时间段的均观影时长的相似程度获取用户的观影时长相似值,选取最优K值进而筛选出离散日志数据。本发明专利技术基于用户的观影习惯特征确定的观影时长相似值选取最优K值,提高离散日志数据的筛选的准确率。日志数据的筛选的准确率。日志数据的筛选的准确率。

【技术实现步骤摘要】
一种机顶盒数据优化存储方法


[0001]本专利技术涉机顶盒数据处理
,具体涉及一种机顶盒数据优化存储方法。

技术介绍

[0002]机顶盒是一种用于接收和解码电视信号的设备,可以提供丰富的多媒体内容和互联网功能。通常会根据用户的行为数据进行分析,进行个性化且智能的观影喜好分析以及个人定制,因此,会对用户机顶盒中的日志数据进行采集以及存储。在日志数据中可能存在错误、无效或冗余的日志数据,这类日志数据不仅占据存储空间,而且影响对用户的观影喜好分析,因此,需要对这类日志数据进行清洗和过滤,从而实现优化存储的日志数据内容。
[0003]现有技术通常利用K均值聚类算法对用户的日志数据进行聚类分析,并根据轮廓系数筛选出最优的K值。由于部分用户在日常生活中对于看电视的需求较低,该类用户的日志数据在参与最优的K值判定时的参考价值相对较差,使得K值设置不合理,导致聚类簇内部聚集性较差,进而降低日志数据中离散日志数据的筛选的准确率。

技术实现思路

[0004]为了解决机顶盒的离散日志数据筛选不准确的技术问题,本专利技术的目的在于提供一种机顶盒数据优化存储方法,所采用的技术方案具体如下:本专利技术提出了一种机顶盒数据优化存储方法,该方法包括:获取至少两个用户的机顶盒在历史时间段内每天存储的日志数据;根据每个用户在历史时间段内存在看电视行为的天数,以及存在看电视行为天内日志数据量的波动情况,获取每个用户的观影置信度;将历史时间段内的天分为预设第一数量种类型;对于每个用户的每种类型的天,依据每天内日志数据的时间间隔之间的差异,获取每种类型的天的间隔离散值;根据每个用户的每种类型下每天内日志数据量的波动情况与所述间隔离散值,获取每个用户的习惯特征值;将每天划分为至少两个时间段;获取每个用户在每个时间段的均观影时长;结合每个用户在每个时间段的均观影时长、所述观影置信度与所述习惯特征值,获取每个时间段的优化均观影时长;依据每个用户在各时间段内均观影时长与所述优化均观影时长的相似程度,获取每个用户的观影时长相似值;基于每个用户的观影时长相似值选取对日志数据进行聚类的最优K值,依据最优K值对日志数据聚类,筛选离散日志数据,将剩余日志数据进行存储。
[0005]进一步地,所述观影置信度的获取方法,包括:统计每个用户在历史时间段内存在看电视行为的天数作为对应用户的观影天数;将每个用户在历史时间段内所述观影天数与总天数的比值,作为每个用户的观影天数参考值;将每个用户在存在看电视行为的天内日志数据量的标准差作为每个用户的观影次数波动值;
根据每个用户的观影天数参考值与观影次数波动值,获取每个用户的观影置信度;所述观影天数参考值与所述观影置信度为正相关的关系;所述观影次数波动值与所述观影置信度为负相关的关系。
[0006]进一步地,所述间隔离散值的获取方法,包括:对于每个用户的每种类型的天,将每天内日志数据之间的时间间隔进行累加,得到每天的综合时间跨度值;将每种类型下每天分别与其他天的综合时间跨度值之间的差值绝对值进行累加,得到每种类型下每天的间隔初始离散值;将每种类型下每天的间隔初始离散值进行累加,得到每个用户的每种类型的天的间隔离散值。
[0007]进一步地,所述习惯特征值的获取方法,包括:将每个用户的每种类型下每天的日志数据量的标准差,作为每个用户的每种类型的天的数量特征值;将所述数量特征值与所述间隔离散值的乘积,作为每个用户的每种类型的天的初始习惯特征值;将每个用户的每种类型的天的初始习惯特征值进行累加并归一化,得到每个用户的习惯特征值。
[0008]进一步地,所述均观影时长的获取方法,包括:对于每个用户,统计用户在每天内每个时间段的观影时间,将用户在所有天内每个时间段的观影时间的均值,作为用户在每个时间段的均观影时长。
[0009]进一步地,所述优化均观影时长的获取方法,包括:将每个用户的所述观影置信度与所述习惯特征值的比值作为每个用户的观影调整值;将每个用户在每个时间段的均观影时长与所述观影调整值的乘积,作为每个用户的每个时间段的初始优化均观影时长;将所有用户的每个时间段的所述初始优化均观影时长的均值,作为每个时间段的优化均观影时长。
[0010]进一步地,所述观影时长相似值的获取方法,包括:以时间为横轴,均观影时长为纵轴建立二维坐标系;对于每个用户,将用户在每个时间段的均观影时长在二维坐标系中进行标注得到第一坐标点,对所述第一坐标点进行曲线拟合,得到用户的观看时长分布曲线;将每个时间段的优化均观影时长在二维坐标系中进行标注得到第二坐标点,对所述第二坐标点进行曲线拟合,得到整体观看时长分布曲线;利用DTW算法,分别获取每个用户的观看时长分布曲线与整体观看时长分布曲线之间的DTW值,作为每个用户的观影时长差异值;将所述观影时长差异值进行负相关并归一化,作为每个用户的观影时长相似值。
[0011]进一步地,所述最优K值的获取方法,包括:对于预设第二数量个K值,对于每个K值,利用K均值聚类算法对历史时间段内所有用户的日志数据进行聚类,得到K值下每个日志数据的轮廓系数;将K值下每个日志数据的轮廓系数与其所属用户对应的观影时长相似值的乘积,作为K值下每个日志数据的优化轮廓系数;将K值下所有日志数据的优化轮廓系数的均值作为K值对应的优化整体轮廓系数;将最大的所述优化整体轮廓系数对应的K值作为最优K值。
[0012]进一步地,所述离散日志数据的获取方法,包括:基于最优K值利用K均值聚类算法对历史时间段内日志数据进行聚类;将以每个日志数据为中心的预设半径内日志数据量进行归一化,作为每个日志数据的局部密度;将所述局部密度小于预设密度阈值的日志数据作为离散日志数据。
[0013]进一步地,所述曲线拟合的方法,为:所述曲线拟合的方法为最小二乘法本专利技术具有如下有益效果:本专利技术实施例中,常规情况下根据用户所有的机顶盒的日志数据的聚类结果进行影视推荐,但是存在部分用户日常看电视需求较差,这些用户的机顶盒的日志数据不具有较高的参考价值,若这些用户的机顶盒的日志数据参与聚类时容易导致聚类结果较差;本专利技术从获取表征用户的观影行为的稳定情况的观影置信度,以及呈现用户观影习惯特征的习惯特征值两个方面呈现用户的机顶盒的日志数据的参考价值;并基于上述两个参数对用户每个时间段的观看电视的均观影时长进行调整,使得到的优化均观影时长能够表征整体用户的观影时长,以及观影习惯;均观影时长表征单个用户观看电视的时间分布情况,优化均观影时长呈现整体用户观看电视的时间分布情况,通过分析单个用户与整体用户的时段分布的相似程度情况,获取用户的观影时长相似值,反映用户是否符合整体用户的习惯特征,进而呈现机顶盒的日志数据的参考价值,利用观影时长相似值对用户的日志数据聚类后的信息进行调整,使选取的最优K值更加合理;从根据最优K值对日志数据进行聚类,使基于聚类结果筛选出的离散机顶盒的日志数据更加准确。
附图说明
[0014]为了更清楚地说明本专利技术实施例或现有技术中的技术方案和优点,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种机顶盒数据优化存储方法,其特征在于,该方法包括:获取至少两个用户的机顶盒在历史时间段内每天存储的日志数据;根据每个用户在历史时间段内存在看电视行为的天数,以及存在看电视行为天内日志数据量的波动情况,获取每个用户的观影置信度;将历史时间段内的天分为预设第一数量种类型;对于每个用户的每种类型的天,依据每天内日志数据的时间间隔之间的差异,获取每种类型的天的间隔离散值;根据每个用户的每种类型下每天内日志数据量的波动情况与所述间隔离散值,获取每个用户的习惯特征值;将每天划分为至少两个时间段;获取每个用户在每个时间段的均观影时长;结合每个用户在每个时间段的均观影时长、所述观影置信度与所述习惯特征值,获取每个时间段的优化均观影时长;依据每个用户在各时间段内均观影时长与所述优化均观影时长的相似程度,获取每个用户的观影时长相似值;基于每个用户的观影时长相似值选取对日志数据进行聚类的最优K值,依据最优K值对日志数据聚类,筛选离散日志数据,将剩余日志数据进行存储。2.根据权利要求1所述的一种机顶盒数据优化存储方法,其特征在于,所述观影置信度的获取方法,包括:统计每个用户在历史时间段内存在看电视行为的天数作为对应用户的观影天数;将每个用户在历史时间段内所述观影天数与总天数的比值,作为每个用户的观影天数参考值;将每个用户在存在看电视行为的天内日志数据量的标准差作为每个用户的观影次数波动值;根据每个用户的观影天数参考值与观影次数波动值,获取每个用户的观影置信度;所述观影天数参考值与所述观影置信度为正相关的关系;所述观影次数波动值与所述观影置信度为负相关的关系。3.根据权利要求1所述的一种机顶盒数据优化存储方法,其特征在于,所述间隔离散值的获取方法,包括:对于每个用户的每种类型的天,将每天内日志数据之间的时间间隔进行累加,得到每天的综合时间跨度值;将每种类型下每天分别与其他天的综合时间跨度值之间的差值绝对值进行累加,得到每种类型下每天的间隔初始离散值;将每种类型下每天的间隔初始离散值进行累加,得到每个用户的每种类型的天的间隔离散值。4.根据权利要求1所述的一种机顶盒数据优化存储方法,其特征在于,所述习惯特征值的获取方法,包括:将每个用户的每种类型下每天的日志数据量的标准差,作为每个用户的每种类型的天的数量特征值;将所述数量特征值与所述间隔离散值的乘积,作为每个用户的每种类型的天的初始习惯特征值;将每个用户的每种类型的天的初始习惯特征值进行累加并归一化,得到每个用户的习惯特征值。5...

【专利技术属性】
技术研发人员:聂小波唐双元
申请(专利权)人:深圳市华星数字有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1