在视频中合成音频方法和电子装置制造方法及图纸

技术编号:17254399 阅读:20 留言:0更新日期:2018-02-11 15:48
本发明专利技术提出一种在视频中合成音频方法,用于电子装置。该方法包括获取视频中目标对象的多帧场景图像;获取目标对象的多帧深度图像;逐帧处理场景图像和深度图像以提取目标对象在每帧场景图像中的图像区域,得到与每帧场景图像对应的图像区域;确定预定音频中,与目标对象对应的多帧音频数据;逐帧将与每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频。通过本发明专利技术,由于深度图像的获取不易受光照、场景中色彩分布等因素的影响,因此,通过深度图像提取到的目标对象在每帧场景图像中的图像区域更加准确,尤其可以准确地在视频中合成音频。

【技术实现步骤摘要】
在视频中合成音频方法和电子装置
本专利技术涉及计算机
,尤其涉及一种在视频中合成音频方法和电子装置。
技术介绍
相关技术中,分割每帧的视频图像中对象与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行对象与背景的分割,但这种分割方法易受外界光照等环境因素的影响。
技术实现思路
本专利技术的实施例提供了一种在视频中合成音频方法、在视频中合成音频装置、电子装置和计算机可读存储介质。本专利技术实施方式的在视频中合成音频方法用于电子装置,所述在视频中合成音频方法包括:获取视频中目标对象的多帧场景图像;获取所述目标对象的多帧深度图像;逐帧处理所述场景图像和所述深度图像以提取所述目标对象在每帧场景图像中的图像区域,得到与所述每帧场景图像对应的图像区域;确定预定音频中,与所述目标对象对应的多帧音频数据;逐帧将与所述每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频本专利技术实施方式的在视频中合成音频装置,用于电子装置。所述在视频中合成音频装置包括:可见光摄像头,所述可见光摄像头用于获取视频中目标对象的多帧场景图像;深度图像采集组件,所述深度图像采集组件用于获取所述目标对象的多帧深度图像;和处理器,所述处理器用于:逐帧处理所述场景图像和所述深度图像以提取所述目标对象在每帧场景图像中的图像区域,得到与所述每帧场景图像对应的图像区域;确定预定音频中,与所述目标对象对应的多帧音频数据;逐帧将与所述每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频。本专利技术实施方式的电子装置包括一个或多个处理器、存储器和一个或多个程序。其中所述一个或多个程序被存储在所述存储器中,并且被配置成由所述一个或多个处理器执行,所述程序包括用于执行上述的在视频中合成音频方法的指令。本专利技术实施方式的计算机可读存储介质包括与能够摄像的电子装置结合使用的计算机程序,所述计算机程序可被处理器执行以完成上述的在视频中合成音频方法。本专利技术实施方式的在视频中合成音频方法、在视频中合成音频装置、电子装置和计算机可读存储介质,通过获取目标对象的深度图像以将目标对象在每帧场景图像中的图像区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响,因此,通过深度图像提取到的目标对象在每帧场景图像中的图像区域更加准确,尤其可以准确地在视频中合成音频。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1是本专利技术一些实施方式的在视频中合成音频方法的流程示意图;图2是本专利技术一些实施方式的在视频中合成音频装置的模块示意图;图3是本专利技术一些实施方式的电子装置的结构示意图;图4是本专利技术一些实施方式的在视频中合成音频方法的流程示意图;图5是本专利技术一些实施方式的在视频中合成音频方法的流程示意图;图6(a)至图6(e)是根据本专利技术一个实施例的结构光测量的场景示意图;图7(a)和图7(b)根据本专利技术一个实施例的结构光测量的场景示意图;图8是本专利技术一些实施方式的在视频中合成音频方法的流程示意图;图9是本专利技术一些实施方式的在视频中合成音频方法的流程示意图;图10是本专利技术一些实施方式的电子装置的模块示意图;图11是本专利技术一些实施方式的电子装置的模块示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1是本专利技术一实施例提出的在视频中合成音频方法的流程示意图。参见图1,该方法包括:S101:获取视频中目标对象的多帧场景图像。其中,目标对象可以例如为当前视频中的动态对象,例如,游动的鱼或者流淌的小溪,对此不作限制。S102:获取目标对象的多帧深度图像。S103:逐帧处理场景图像和深度图像以提取目标对象在每帧场景图像中的图像区域,得到与每帧场景图像对应的图像区域。S104:确定预定音频中,与目标对象对应的多帧音频数据。S105:逐帧将与每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频。请一并参阅图1至2,本专利技术实施方式的在视频中合成音频方法可以用于电子装置1000。请参阅图3,本专利技术实施方式的在视频中合成音频方法可以由本专利技术实施方式的在视频中合成音频装置100实现。本专利技术实施方式的在视频中合成音频装置100用于电子装置1000。在视频中合成音频装置100包括可见光摄像头11、深度图像采集组件12和处理器20。S101可以由可见光摄像头11实现,S102可以由深度图像采集组件12实现,S103-S105可以由处理器20实现。也即是说,可见光摄像头11可用于获取视频中目标对象的多帧场景图像;深度图像采集组件12可用于获取目标对象的多帧深度图像;处理器20可用于逐帧处理场景图像和深度图像以提取目标对象在每帧场景图像中的图像区域,得到与每帧场景图像对应的图像区域,以及确定预定音频中,与目标对象对应的多帧音频数据,逐帧将与每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频。其中,场景图像为通过可见光摄像头11采集到的目标对象所在场景的图像。场景图像为可以是灰度图像或彩色图像,深度图像表征包含目标对象的场景中各个目标对象的深度信息。场景图像的场景范围与深度图像的场景范围一致,且场景图像中的各个像素均能在深度图像中找到对应该像素的深度信息。本专利技术实施方式的在视频中合成音频装置100可以应用于本专利技术实施方式的电子装置1000。也即是说,本专利技术实施方式的电子装置1000包括本专利技术实施方式的在视频中合成音频装置100。在某些实施方式中,电子装置1000包括手机、平板电脑、笔记本电脑、智能手环、智能手表、智能头盔、智能眼镜等。相关技术中的分割图像中对象与背景的方法主要根据相邻像素在像素值方面的相似性和不连续性进行对象与背景的分割,但这种分割方法易受外界光照等环境因素的影响。本专利技术实施方式的在视频中合成音频方法、在视频中合成音频装置100和电子装置1000通过获取目标对象的多帧深度图像以将每帧场景图像中,与目标对象对应的图像区域提取出来。由于深度图像的获取不易受光照、场景中色彩分布等因素的影响,因此,通过深度图像提取到的目标对象的图像区域更加准确,尤其可以准确标定出图像区域的边界。进一步地,使得将图像区域与预定音频中,与目标对象对应的多帧音频数据的融合效果更佳。请参阅图4,在某些实施方式中,S102:获取目标对象的多帧深度图像,可以包括:S401:向目标对象投射结构光。S402:拍摄经目标对象调制的多帧结构光图像。S403:逐帧解调结构光图像的各个像素对应的相位信息以得到多帧深度图像。请再参阅图3,在某些实施方式中,深度图像采集组件12包括结构光投射器121和结构光摄像头122。S401可以由结构光投射器121实现,S402和S403可以由结构光摄像头122实现。也即是说,结构光投射器121可用于向目标对象透射结构光,结构光摄像头122可用于拍摄经目标对象调制的多帧结构光图像;和逐帧解调结构光图像的本文档来自技高网...
在视频中合成音频方法和电子装置

【技术保护点】
一种在视频中合成音频方法,其特征在于,包括以下步骤:获取视频中目标对象的多帧场景图像;获取所述目标对象的多帧深度图像;逐帧处理所述场景图像和所述深度图像以提取所述目标对象在每帧场景图像中的图像区域,得到与所述每帧场景图像对应的图像区域;确定预定音频中,与所述目标对象对应的多帧音频数据;逐帧将与所述每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频。

【技术特征摘要】
1.一种在视频中合成音频方法,其特征在于,包括以下步骤:获取视频中目标对象的多帧场景图像;获取所述目标对象的多帧深度图像;逐帧处理所述场景图像和所述深度图像以提取所述目标对象在每帧场景图像中的图像区域,得到与所述每帧场景图像对应的图像区域;确定预定音频中,与所述目标对象对应的多帧音频数据;逐帧将与所述每帧场景图像对应的图像区域,与对应帧的音频数据相融合,以在视频中合成音频。2.如权利要求1所述的在视频中合成音频方法,其特征在于,还包括:对所述目标对象进行音频录制,得到所述预定音频。3.如权利要求1所述的在视频中合成音频方法,其特征在于,所述获取所述目标对象的多帧深度图像,包括:向所述目标对象投射结构光;拍摄经所述目标对象调制的多帧结构光图像;和逐帧解调所述结构光图像的各个像素对应的相位信息以得到所述多帧深度图像。4.如权利要求3所述的在视频中合成音频方法,其特征在于,所述逐帧解调所述结构光图像的各个像素对应的相位信息以得到所述多帧深度图像,包括:逐帧解调所述结构光图像中各个像素对应的相位信息;将所述相位信息转化为深度信息;和根据所述深度信息生成所述深度图像。5.如权利要求1所述的在视频中合成音频方法,其特征在于,所述逐帧处理所述场景图像和所述深度图像以提取所述目标对象在每帧场景图像中的图像区域,得到与所述每帧场景图像对应的图像区域,包括:逐帧识别所述场景图像中的目标对象区域;从所述深度图像中获取与所述目标对象区域对应的深度信息;根据所述目标对象区域对应的深度信息确定所述目标对象在所述场景图像中的图像区域,得到与所述每帧场景图像对应的图像区域。6.一种在视频中合成音频装置,用于电子装置,其特征在于,所述在视频中合成音频装置包括:可见光摄像头,所述可见光摄像头用于获取视频中目标对象的多帧场景图像;深度图像采集组件,所述深度图像采集组件用于获取所述目标对象的多帧深度图像;和处理器,所述处理器用于:逐帧处理所述场...

【专利技术属性】
技术研发人员:张学勇
申请(专利权)人:广东欧珀移动通信有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1