盲人无障碍电影音频处理方法、装置及存储介质制造方法及图纸

技术编号:36558648 阅读:12 留言:0更新日期:2023-02-04 17:13
本发明专利技术涉及一种盲人无障碍电影音频处理方法、装置及存储介质,其中方法包括:分离得到正片视频帧队列Q

【技术实现步骤摘要】
盲人无障碍电影音频处理方法、装置及存储介质


[0001]本专利技术涉及音频处理领域,尤其是涉及一种盲人无障碍电影音频处理方法、装置及存储介质。

技术介绍

[0002]无障碍电影是专门为了方便残障人士观看的经过加工的电影节目,分为盲人与聋人两种版本。对于盲人观众,在保留电影原声和对白的同时,会适时地插入一些对电影画面内容的解说描述。
[0003]最早这些工作是在电影放映现场人工进行的,志愿者们要拿着话筒一遍遍重复劳动;随着越来越多的社会力量加入,专业制作的无障碍版本电影诞生,这些电影大多以光盘形式传播,不仅减少了志愿者的重复工作,也能让盲人在家就能轻松享受电影的乐趣。
[0004]随着互联网视频的普及,可以线上欣赏的无障碍电影也越来越多,由此诞生了一种新的形式:即在普通的电影版本上,外挂一路解说音轨来实现盲人无障碍电影,该音轨称为AD音轨(Audio Description Track),简称AD轨,其时长与电影正片保持一致。这种形式免去了电影介质的再生产,降低了制作成本。
[0005]采用AD轨的无障碍电影播放过程中,会有两路音轨同时播放,即一路电影音轨与一路解说音轨;在前期录制和制作解说音轨时,解说朗读的段落原则上会避开电影中人物的对白段落,选择较为安静的段落穿插解说,但电影中除了人物对白外,为了烘托气氛往往还有背景音乐、环境声响,在时间轴上不可避免地会与解说朗读的内容重叠,引起听觉掩蔽的现象,导致观众无法很好听清解说内容,影响观赏体验。
[0006]对此,一般播放器会支持AD轨的音量和电影音量独立控制,方便陪同观看的用户进行手动调节;对于原声动态范围较窄的影片,比如纪录片、文艺片,通过适当调大AD轨的音量,或调小原声轨的音量,基本可以让观众听清解说内容,也不影响电影本身的播放效果;但对于绝大部分影片,原声的动态范围是非常宽的,其时间轴波形呈现起伏的“山脉状”;而AD轨是纯语音,动态范围一般较窄,时间轴波形呈现平坦的“腊肠状”;此时再通过手动调节来获得全程舒适的听觉体验就相当困难了:由于两个轨道动态范围不匹配,如果调大AD轨音量,无法保证全程听清解说内容,甚至损害听力,但如果调小电影原声音量,那么原声的宽动态效果又会大打折扣。
[0007]综上可知,现有技术在播放带有AD音轨的盲人无障碍电影时,仍存在播放体验不佳的问题,所以有必要进行改进。

技术实现思路

[0008]本专利技术的目的就是为了提供一种基于外挂AD音轨的盲人无障碍电影音频处理方法、装置及存储介质,基于现有的盲人无障碍电影播放功能,结合语音活动检测(VAD)和音量自适应调节技术,克服了电影原声音轨对于AD音轨的听觉掩蔽效应,使讲解内容能穿插在高动态范围的电影原声中进行播放,弥补了外挂AD音轨这种盲人无障碍电影播放形式的
短板,提升了盲人无障碍电影的观影体验。
[0009]本专利技术的目的可以通过以下技术方案来实现:
[0010]一种基于外挂AD音轨的盲人无障碍电影音频处理方法,包括:
[0011]获取正片的媒体数据流和外挂AD音轨的媒体数据流;
[0012]基于正片的媒体数据流解析分离得到正片视频帧队列Q
videoES
、正片音频帧队列Q
audioES
,并基于外挂AD音轨的媒体数据流解析分离得到AD轨音频帧队列Q
audioES
,并完成正片视频帧队列Q
videoES
、正片音频帧队列Q
audioES
和AD轨音频帧队列Q
audioES
的时间轴同步;
[0013]基于正片音频帧队列Q
audioES
提取正片处理段PCM数据帧序列,并基于AD轨音频帧队列Q
audioES
提取AD轨处理段PCM数据帧序列;
[0014]对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态,其中,所述语音活动状态为活动或不活动;
[0015]对正片处理段PCM数据帧序列的每一帧计算音量,得到正片音量序列,并对该正片音量序列种的元素逐个计算移动平均值,得到正片平均音量序列;
[0016]对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值,得到AD轨平均音量序列;
[0017]基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列;
[0018]基于处理得到的正片平均音量序列和AD轨平均音量序列生成待播放的音频。
[0019]所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,具体包括:
[0020]初始调节值生成步骤:逐帧确定正片平均音量序列和AD轨平均音量序列中每帧音量的相对调节幅度,得到正片相对调节值序列和AD轨相对调节值序列;
[0021]音量调节步骤:根据正片相对调节值序列和AD轨相对调节值序列调节正片平均音量序列和AD轨平均音量序列。
[0022]所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下:
[0023]当该帧的语音活动状态为不活动时,正片相对调节值和AD轨相对调节值均为0;
[0024]当该帧的语音活动状态为活动时,则计算该帧的正片平均音量和AD轨平均音量的差值:
[0025]若该帧的正片平均音量和AD轨平均音量的差值小于

10,则正片相对调节值和AD轨相对调节值均为0;
[0026]若该帧的正片平均音量和AD轨平均音量的差值小于在

10到0之间,AD轨相对调节值为0,正片相对调节值为D
movie
=L
AD
'(t)

L
movie
'(t)

10,其中,D
movie
为正片相对调节值,L
AD
'(t)为AD轨平均音量,L
movie
'(t)为正片平均音量;
[0027]若该帧的正片平均音量和AD轨平均音量的差值小于在0到10之间,则正片相对调节值为

10,AD轨相对调节值为D
AD
(t)=L
movie
'(t)

L
AD
'(t)

10;
[0028]若该帧的正片平均音量和AD轨平均音量的差值大于10,则正片相对调节值为

10,AD轨相对调节值为10。
[0029]所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,还包括:
[0030]调节值优化步骤:对由初始调节值生成步骤得到的正片相对调节值序列和AD轨相对调节值序列进行平滑处理;
[0031]所述音量调节步骤中具体为使用调节值优化步骤得到的结果进行音量调节。
[0032]所述平滑处理处理的过程具体为:<本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,包括:获取正片的媒体数据流和外挂AD音轨的媒体数据流;基于正片的媒体数据流解析分离得到正片视频帧队列Q
videoES
、正片音频帧队列Q
audioES
,并基于外挂AD音轨的媒体数据流解析分离得到AD轨音频帧队列Q
audioES
,并完成正片视频帧队列Q
videoES
、正片音频帧队列Q
audioES
和AD轨音频帧队列Q
audioES
的时间轴同步;基于正片音频帧队列Q
audioES
提取正片处理段PCM数据帧序列,并基于AD轨音频帧队列Q
audioES
提取AD轨处理段PCM数据帧序列;对AD轨处理段PCM数据帧序列进行语音活动检测,得到每一帧的语音活动状态,其中,所述语音活动状态为活动或不活动;对正片处理段PCM数据帧序列的每一帧计算音量,得到正片音量序列,并对该正片音量序列种的元素逐个计算移动平均值,得到正片平均音量序列;对AD轨处理段PCM数据帧序列中语音活动状态为不活动的帧修改为静音值,并对剩余帧逐个计算移动平均值,得到AD轨平均音量序列;基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列;基于处理得到的正片平均音量序列和AD轨平均音量序列生成待播放的音频。2.根据权利要求1所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述基于语音活动检测结果逐帧调节正片平均音量序列和AD轨平均音量序列,具体包括:初始调节值生成步骤:逐帧确定正片平均音量序列和AD轨平均音量序列中每帧音量的相对调节幅度,得到正片相对调节值序列和AD轨相对调节值序列;音量调节步骤:根据正片相对调节值序列和AD轨相对调节值序列调节正片平均音量序列和AD轨平均音量序列。3.根据权利要求2所述的一种基于外挂AD音轨的盲人无障碍电影音频处理方法,其特征在于,所述正片相对调节值序列和AD轨相对调节值序列中任一帧的调节值的确定过程如下:当该帧的语音活动状态为不活动时,正片相对调节值和AD轨相对调节值均为0;当该帧的语音活动状态为活动时,则计算该帧的正片平均音量和AD轨平均音量的差值:若该帧的正片平均音量和AD轨平均音量的差值小于

10,则正片相对调节值和AD轨相对调节值均为0;若该帧的正片平均音量和AD轨平均音量的差值小于在

10到0之间,AD轨相对调节值为0,正片相对调节值为D
movie
=L
AD
'(t)

...

【专利技术属性】
技术研发人员:沈德荣佘奕龙潘磊邱志飞魏祯
申请(专利权)人:百视通网络电视技术发展有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1