一种直播数据处理方法和装置制造方法及图纸

技术编号:26535026 阅读:15 留言:0更新日期:2020-12-01 14:24
本发明专利技术提供了一种直播数据处理方法和装置,涉及大数据技术领域,主要解决了电视直播数据上报离散而无法直接使用的技术问题。该发明专利技术包括:获取直播数据的原始数据;对所述原始数据进行预处理,得到有效数据;对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;对所述时间点数据进行后处理,得到预设类别的产品数据。因此,本发明专利技术将离散无序的直播数据处理成线性有序数据,并解决90%以上的直播数据指标,统一之后的频道时段与节目时段数据;还满足大部分离线数据处理的业务需求,方便后期的数据融合,快速提升数据质量。

【技术实现步骤摘要】
一种直播数据处理方法和装置
本专利技术涉及大数据
,尤其涉及一种直播数据处理方法和装置。
技术介绍
直播数据处理问题是所有直播相关行业面临的相同问题,其中,包括电视端、手机端等。而在电视端数据离散更为普遍,因为电视端的内存,网络带宽,采集服务器成本等资源限制,导致直播数据不能按每分钟一条这种方式上报,更不可能按秒级别上报。常规的情况是每2分、4分或更长的间隔上报数据(也包含一分钟多条情况),基于不同数据源,不同厂商,不同的终端sdk版本,导致出入非常大。基于以上问题,直播数据处理问题变成一个挑战。当前业界数据处理方式比较多,但主要有两种:(1)企业级大数据产品主要部署在运营商的云服务器,将小数据量的tsv,csv上传到云服务器,进行简单的数据清洗。比如,抽取某几个字段,将某个字段改个格式,简单做个聚合等,但对于离散的直播数据,因为无法对数据进行行级处理,对此情况该类大数据产品彻底无能为力。(2)传统的数据处理方式主要部署在企业内部服务器,直播相关指标(每分钟在线,收视率,时长份额,频道/节目流入流出等)需要单独开发,缺点是耗时长,质量完全由开发人员水平决定,分析师无法直接使用数据,无法做数据对比,数据校验困难,不同数据源数据需要单独处理,多数据源合并难度大,交付时间周期长。
技术实现思路
本专利技术其中一个目的是为了提出一种直播数据处理方法和装置,解决了现有技术中电视直播数据上报离散而无法直接使用的技术问题。本专利技术优选实施方案中能够达到诸多有益效果,具体见下文阐述。为实现上述目的,本专利技术提供了以下技术方案:本专利技术的一种直播数据处理方法,其包括:获取直播数据的原始数据;对所述原始数据进行预处理,得到有效数据;对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;对所述时间点数据进行后处理,得到预设类别的产品数据。进一步的,所述获取直播数据的原始数据,包括:从统一的云存储内获取各个直播终端的直播数据的原始数据,其中,所述各个直播终端采用预设的命令行工具将各自的直播数据的原始数据上传到所述统一的云存储。进一步的,所述对所述原始数据进行预处理,得到有效数据,包括:检查所述原始数据的格式和/或字段;若所述原始数据的格式为预设格式且所述原始数据的字段包括预设字段,则对所述原始数据进行精简处理,所述精简处理包括:过滤、压缩、备份中的一项或多项;根据业务需求,对所述精简后的原始数据进行数据抽取,得到有效数据。进一步的,所述预设格式包括:tsv格式、csv格式、或json格式;和/或,所述预设字段包括:MAC地址、创建时间和频道标识。进一步的,所述对所述有效数据进行数据清洗,得到时间点数据,包括:对应每个直播终端,若上报时间区间内的至少一个时间点存在缺失数据,则采用缺失数据的上一个时间点的有效数据补齐所述缺失数据,得到补齐后的数据;对所述补齐后的数据标识状态,包括:将统计周期的第一条数据的状态标识为开机;若两条数据的时间间隔大于等于预设时长,则将前一条数据的状态标识为关机;若相邻两条数据的频道不同,则将前一条数据的状态标识为流出,后一条数据的状态标识为流入。进一步的,所述统计周期为1天,和/或,所述预设时长为10分钟。进一步的,,所述对所述时间点数据进行后处理,得到预设类别的产品数据,包括:对所述时间点数据进行数据融合;根据时间点,对数据融合后的数据生成预设类别的产品数据。进一步的,所述预设类别的产品数据包括:频道时段数据,和/或,节目时段数据。进一步的,所述直播数据为电视终端的直播数据;和/或,所述预设时间间隔为1分钟。本专利技术还包括一种计算机设备,其包括:处理器和存储器,所述存储器中存储有计算机程序,当所述计算机程序被所述处理器执行时,执行上述的直播数据处理方法。本专利技术提供的一种直播数据处理方法和装置至少具有如下有益技术效果:本专利技术的直播数据处理方法和装置,通过首先获取直播数据的原始数据;再对所述原始数据进行预处理,得到有效数据;然后,对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;最后,对所述时间点数据进行后处理,得到预设类别的产品数据。因此,本专利技术实现了将离散无序的直播数据处理成线性有序数据;为多场景数据分析师的验证和使用,提供了方便快速的有效数据;并解决90%以上的直播数据指标,统一之后的频道时段与节目时段数据。数据颗粒度设计为分钟级别,也满足大部分离线数据处理的业务需求,方便后期的数据融合,快速提升数据质量。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术的直播数据处理方法的流程示意图;图2是本专利技术的直播数据处理方法的另一种流程示意图;图3是本专利技术的计算机设备的结构示意图。图中1-处理器;2-存储器。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将对本专利技术的技术方案进行详细的描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所得到的所有其它实施方式,都属于本专利技术所保护的范围。参见图1和图2,本专利技术的一种直播数据处理方法,其包括:S1:获取直播数据的原始数据;S2:对所述原始数据进行预处理,得到有效数据;S3:对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;S4:对所述时间点数据进行后处理,得到预设类别的产品数据。优选地,所述直播数据为电视终端的直播数据;和/或,所述预设时间间隔为1分钟。需要说明的是,产品数据是根据实际需要而定的,基于时间、频道、节目、维度等指标,例如,算收视率的产品,公司出的直播数据报告,频道收视、节目收视排行,收视率,在线人数(每分钟或其他时段内统计计算),到达率,用户流入情况和流出情况等。本专利技术的直播数据处理方法和装置,通过首先获取直播数据的原始数据;再对所述原始数据进行预处理,得到有效数据;然后,对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;最后,对所述时本文档来自技高网...

【技术保护点】
1.一种直播数据处理方法,其特征在于,包括:/n获取直播数据的原始数据;/n对所述原始数据进行预处理,得到有效数据;/n对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;/n对所述时间点数据进行后处理,得到预设类别的产品数据。/n

【技术特征摘要】
1.一种直播数据处理方法,其特征在于,包括:
获取直播数据的原始数据;
对所述原始数据进行预处理,得到有效数据;
对所述有效数据进行数据清洗,得到时间点数据,所述时间点数据为对应每个直播终端,上报时间区间内的各个时间点均有一条数据,相邻两个时间点的时间间隔为预设时间间隔;
对所述时间点数据进行后处理,得到预设类别的产品数据。


2.根据权利要求1所述的直播数据处理方法,其特征在于,所述获取直播数据的原始数据,包括:
从统一的云存储内获取各个直播终端的直播数据的原始数据,其中,所述各个直播终端采用预设的命令行工具将各自的直播数据的原始数据上传到所述统一的云存储。


3.根据权利要求1所述的直播数据处理方法,其特征在于,所述对所述原始数据进行预处理,得到有效数据,包括:
检查所述原始数据的格式和/或字段;
若所述原始数据的格式为预设格式且所述原始数据的字段包括预设字段,则对所述原始数据进行精简处理,所述精简处理包括:过滤、压缩、备份中的一项或多项;
根据业务需求,对所述精简后的原始数据进行数据抽取,得到有效数据。


4.根据权利要求3所述的直播数据处理方法,其特征在于,所述预设格式包括:tsv格式、csv格式、或json格式;和/或,
所述预设字段包括:MAC地址、创建时间和频道标识。


5.根据权利要求1所述的直播数据处理方法,其特征在于,所述对所述有效数据...

【专利技术属性】
技术研发人员:王鹏
申请(专利权)人:广州欢网科技有限责任公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1