独立字幕流的添加复用方法和装置制造方法及图纸

技术编号：26653594 阅读：36 留言：0更新日期：2020-12-09 00:57

本公开的实施例提供了独立字幕流的添加复用方法、装置、设备和计算机可读存储介质。所述方法包括接收TS流信号，对所述TS流信号进行解复用；根据解复用得到的PES层中的时间戳确定第一系统时钟；对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。以此方式，可以在对节目实时性影响较小的情况下，对电视台提供的没有字幕的原始视频音频信号进行了独立字幕流的添加复用，以便用户通过对机顶盒或者手机APP的操作显示或隐藏所添加的字幕，提高了用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
独立字幕流的添加复用方法和装置
本公开的实施例一般涉及广播电视
，并且更具体地，涉及独立字幕流的添加复用方法、装置、设备和计算机可读存储介质。
技术介绍
现有数字电视广播中，一般由电视台提供原始视频音频信号，通过有线网络/IPTV/OTT运营商等发送到用户家中的机顶盒或者手机APP；用户通过对机顶盒或者手机APP的操作即可观看并收听所述视频音频信号。但是，电视台提供的原始视频音频信号中大多数没有字幕；而少量带有字幕的原始视频音频信号中，字幕往往是烧进视频图像里。听力障碍观众无法通过独立的字幕提示正常观看所有音视频节目，也影响了一些外文节目的观看和理解。有的运营商把语音解析成文字之后，把文字烧入视频层，但是影响到了不想观看字幕提示的观众的观看体验，没能给观众选择是否观看字幕的权利。
技术实现思路
根据本公开的实施例，提供了一种独立字幕流的添加复用方案。在本公开的第一方面，提供了一种独立字幕流的添加复用方法。该方法包括：接收TS流信号，对所述TS流信号进行解复用；根据解复用得到的...

【技术保护点】
1.一种独立字幕流的添加复用方法，其特征在于，包括：/n接收TS流信号，对所述TS流信号进行解复用；/n根据解复用得到的PES层中的时间戳确定第一系统时钟；/n对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；/n根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。/n

【技术特征摘要】
1.一种独立字幕流的添加复用方法，其特征在于，包括：
接收TS流信号，对所述TS流信号进行解复用；
根据解复用得到的PES层中的时间戳确定第一系统时钟；
对解复用得到的音频流进行语音识别，得到对应的文本信息和对应的第二时钟；根据所述文本信息进行编码，生成字幕流；
根据所述第一系统时钟与第二时钟，对所述视频流、音频流、字幕流进行复用，得到带有独立字幕流的TS流信号。

2.根据权利要求1所述的方法，其特征在于，对所述TS流信号进行解复用包括：
从所述TS流信号中过滤出待进行独立字幕流的添加复用的频道，进行解扰解复用得到对应的TS层、PES层和ES层。

3.根据权利要求1所述的方法，其特征在于，所述方法还包括：
对解复用得到的ES层进行分析，根据分析得到的分辨率和帧率，确定后期展示字幕的位置信息。

4.根据权利要求1所述的方法，其特征在于，对解复用得到的音频流进行语音识别包括：
采用VAD算法对所述音频流检测语音，采集到待识别语音信号；
获取当前待识别语音信号的语音特征序列；将所述语音特征序列输入预先训练得到的神经网络模型，得到表示各个音素的概率的输出序列；
将所述输出系列输入预先训练的CTC模型，得到对应的音素序列；
将所述音素序列输入语言模型，转换成最终的文字序列作为识别结果；其中，
所述神经网络模型是通过对已有字幕文件的电视节目生成的训练样本集，采用teachers-student框架进行训练得到的。
...

【专利技术属性】
技术研发人员：高伟，端木义平，
申请(专利权)人：央视国际视频通讯有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人