一种音视频在线检测与虚拟声像生成方法及装置制造方法及图纸

技术编号:20246936 阅读:15 留言:0更新日期:2019-01-30 00:45
本发明专利技术提供了一种音视频在线检测与虚拟声像生成方法及装置,其中方法包括:对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,获得运动声源运动过程中所需声道以及相应声道中的声学参数;利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

【技术实现步骤摘要】
一种音视频在线检测与虚拟声像生成方法及装置
本专利技术涉及虚拟声像生成
,尤其涉及一种音视频在线检测与虚拟声像生成方法及装置。
技术介绍
目前市面上的影视资源更多采用多通道录制,是为了更好的达到音效的真实饱满。但是对于听众而言,确实无法完美匹配动态音效与影像画面。随着影视行业的发展,现存很多模式,其中包括杜比全景声、AURO-3D等,但也存在重放过程中声像效果不佳等问题。如何让听众在现有的环境和已有片源音频制式的情况下,对于全景声格式下虚拟声像再生成与模拟则是本处理器需要解决的问题。于此同时,对国内外全景声重放系统声像生成的技术发展与相关成果进行研究分析,不难发现其中存在以下若干问题。1)研究文献可以看出,目前全景声重放系统制式较多,但是均未明确针对上方和下方空间音效问题进行处理,且上下方空间音效重放制式也未进行规范或说明;根据现有市面上各种全景声重放方式在放映时,听者确实也感觉存在垂直空间音效声像不定,且容易混淆等问题存在;因而模拟垂直空间音效,改善上下方声像是切实需要解决的问题。2)目前的影视作品的音频制作主要分为两种:一种为同期录音即同期音,这些声音主要包括演员的对白、动作音效和拍摄现场的声音空间环境效果。另一种为后期录音。但是目前常用的是后期录音来解决动态音效以及声音空间环境效果,这样实际重放过程中就存在难以解决的声音距离感以及动态音效运动速率等问题。A、声音的距离感知的实验探究,目前的国内外的文献研究较少,也没有给出一定结论可以直接进行工程应用。a)针对不同频率成分距离感知问题,文献中标明随着频率成分和空间感知距离存在一定关系,但是没有提供更多的关于垂直轴向距离感知与频率成分的关系,这是可以研究的一个问题;b)现有的文献研究主要集中于水平面上的主观距离感知,但实际应用中,是需要对水平面及垂直面进行综合应用,故水平面与垂直面上人主观距离感知是否存在明显的差异性,并且此差异性是否可以进行线性修正都是需要通过实验进行探讨;c)同时对于主观距离感知的影响因素更多的研究偏重于声压级变化,但是声源入射的角度、延时参量的设置等是否对其有一定的影响,也是需要实验来进行进一步探讨;d)即使影响主观距离感知因素主要取决声压级的变化,但是类似于近场范围内,不同声压级变化时人主观距离感知也存在一定的范围,但是此范围也需要通过实验也进行实际确定,便于实际工程应用;B、根据文献资料可知,针对运动声源感知的阈限的探索相对较少,但是是否存在影响运动声源感知阈限的其他因素;a)由于运动声源感知阈限的结论比较宽泛,没办法进行应用,因而需要对其实验结果进行补充,得到不同声源信号以及不同声源频率相应的运动声源感知阈限。b)针对影视音频制作中,动态音效基本上都存在一定背景音存在;因而信噪比变化对于运动声源感知阈限存在什么样的影响,也是在进行工程应用前需要解决的问题;c)目前对于运动声源阈限的感知研究,基本上都是固定在一个半径范围内即半径为2.5m,但是实际影视重放时,扬声器配置远大于这个范围,因而声源位置距离是否对运动声源阈限的感知有影响;如果存在,影响的趋势变化也是需要探讨的。故上述影响全景声格式下虚拟声像再生成的问题,是需要解决的问题,从而对影视作品的虚拟声像音效问题进行改善,明确声像方向,确定合适的声像强度。
技术实现思路
本专利技术旨在提供一种克服上述问题之一或者至少部分地解决上述任一问题的一种音视频在线检测与虚拟声像生成方法及装置。为达到上述目的,本专利技术的技术方案具体是这样实现的:本专利技术的一个方面提供了一种音视频在线检测与虚拟声像生成方法,包括:获取影视作品,提取影视作品的视频以及多声道音频;对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;利用多声道音频以及声音特征参数的标注文件生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。其中,在虚拟声像的生成后,音视频在线检测与虚拟声像生成方法还包括:利用多声道系统进行虚拟声像的重放。其中,将多声道音频信号进行信号矩阵分配,得到分配结果包括:将多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。其中,声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。其中,声学参数包括:声压级、声源角度和频率谱。本专利技术另一方面提供了一种音视频在线检测与虚拟声像生成装置,包括:提取模块,用于获取影视作品,提取影视作品的视频以及多声道音频;在线检测模块,用于对视频以及多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;多声道音频处理模块,用于利用多声道音频以及声音特征参数的标注文件生成多声道音频文件,并利用多声道音频文件生成多声道音频信号,对多声道音频信号进行信号矩阵分配,得到分配结果;模型处理模块,用于从声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从声音特征参数的标注文件中提取声学参数,并将声学参数代入三维声源距离感知模型,利用运动声源运动速率感知模型以及三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;生成模块,用于利用分配结果以及运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。其中,音视频在线检测与虚拟声像生成装置还包括:重放模块;重放模块,用于在生成模块进行虚拟声像的生成后,利用多声道系统进行虚拟声像的重放。其中,多声道音频处理模块通过如下方式将多声道音频信号进行信号矩阵分配,得到分配结果:多声道音频处理模块,具体用于将多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。其中,声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。其中,声学参数包括:声压级、声源角度和频率谱。由此可见,通过本专利技术实施例提供的音视频在线检测与虚拟声像生成方法,将原多声道音频信号进行信号处理,针对不同重放区域进行重新的信号分配处理,并对多声道音视频在线检测的标注文件进行实时读取,再根据不同标注文件中的各项参数,分别进入三维距离感知模型以及运动声源速率感知阈限模型,对运动声源的虚拟声像进行重现。进一步,可以更加真实地重现运动声源的三维声场感知。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他附图。图1为本专利技术实施例提供的音视频在线检测与虚拟声像生成方法的流程图;图2为本专利技术实施例提供的音视频在线检测与虚本文档来自技高网
...

【技术保护点】
1.一种音视频在线检测与虚拟声像生成方法,其特征在于,包括:获取影视作品,提取所述影视作品的视频以及多声道音频;对所述视频以及所述多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;利用所述多声道音频以及所述声音特征参数的标注文件生成多声道音频文件,并利用所述多声道音频文件生成多声道音频信号,对所述多声道音频信号进行信号矩阵分配,得到分配结果;从所述声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将所述运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从所述声音特征参数的标注文件中提取声学参数,并将所述声学参数代入三维声源距离感知模型,利用所述运动声源运动速率感知模型以及所述三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;利用所述分配结果以及所述运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。

【技术特征摘要】
1.一种音视频在线检测与虚拟声像生成方法,其特征在于,包括:获取影视作品,提取所述影视作品的视频以及多声道音频;对所述视频以及所述多声道音频进行多声道音视频在线检测,得到声音特征参数的标注文件;利用所述多声道音频以及所述声音特征参数的标注文件生成多声道音频文件,并利用所述多声道音频文件生成多声道音频信号,对所述多声道音频信号进行信号矩阵分配,得到分配结果;从所述声音特征参数的标注文件中提取运动声源的运动轨迹以及运动时间,并将所述运动声源的运动轨迹以及运动时间代入运动声源运动速率感知模型,从所述声音特征参数的标注文件中提取声学参数,并将所述声学参数代入三维声源距离感知模型,利用所述运动声源运动速率感知模型以及所述三维声源距离感知模型获得运动声源运动过程中所需声道以及相应声道中的声学参数;利用所述分配结果以及所述运动声源运动过程中所需声道以及相应声道中的声学参数进行虚拟声像的生成。2.根据权利要求1所述的方法,其特征在于,在所述虚拟声像的生成后,还包括:利用多声道系统进行所述虚拟声像的重放。3.根据权利要求1所述的方法,其特征在于,所述将所述多声道音频信号进行信号矩阵分配,得到分配结果包括:将所述多声道音频信号进行信号矩阵分配,并在分配后,对预设部分信号采用子带随机延时去相关处理,得到分配结果。4.根据权利要求1所述的方法,其特征在于,所述声音特征参数的标注文件包括:运动声源的声音特征参数的标注文件。5.根据权利要求1或4所述的方法,其特征在于,所述声学参数包括:声压级、声源角度和频率谱。6.一种音视频在线检测与虚拟声像生成装置,其特征在于,包括:提取模块,用于获取影视作品,提取所...

【专利技术属性】
技术研发人员:牛欢孟子厚张茂成申少雄
申请(专利权)人:中国传媒大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1