一种实现声音与图像同位的方法、装置、设备及介质制造方法及图纸

技术编号:20081897 阅读:26 留言:0更新日期:2019-01-15 02:54
本发明专利技术实施例公开了一种实现声音与图像同位的方法、装置、设备及介质,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取当前播放视频对应的图像特征和声音特征;基于所述图像特征判断当前播放视频是否存在发声源;若存在,则获取当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。通过采用上述技术方案,可提高视频的播放效果,给观看者带来较强的临场感。

A Method, Device, Equipment and Media for Achieving the Colocation of Sound and Image

The embodiment of the present invention discloses a method, device, device and medium for realizing sound and image co-location. The method includes: image recognition and sound recognition of the current playing video respectively to obtain the image and sound features corresponding to the current playing video; judging whether there is a sound source for the current playing video based on the image features; and acquiring the sound source if there is a sound source; The position information of the sound source of the current playing video on the current video display screen; judging whether the current playing video exists a sound source matching the sound source based on the sound characteristics; if there exists, generating a control signal according to the position information of the sound source on the current video display screen to control the sound reproduction element corresponding to the position information; wherein the preset is used to control the sound reproduction element corresponding to the position information. The image feature database is pre-constructed according to the current playing video. By adopting the above technical scheme, the playback effect of the video can be improved and the viewer can have a strong sense of presence.

【技术实现步骤摘要】
一种实现声音与图像同位的方法、装置、设备及介质
本专利技术实施例涉及智能电视
,尤其涉及一种实现声音与图像同位的方法、装置、设备及介质。
技术介绍
现在的电子显示类产品,如大尺寸液晶电视,在播放视频的时候,视频图像是通过显示屏呈现出来,而视频声音则是通过设置在电视其它位置的扬声器发声,由于视频声音与对应的视频图像不在同一个位置,导致视频的播放效果不佳,用户观看视频时的临场感不强。
技术实现思路
本专利技术提供一种实现声音与图像同位的方法、装置、设备及介质,通过所述方法有效实现声音与图像的同位置呈现,提高视频的播放效果。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种实现声音与图像同位的方法,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。进一步的,所述对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征,包括:对当前播放视频进行解码,分别得到当前播放视频对应的图像数据和声音数据;基于所述图像数据调用图像识别接口进行图像识别,得到对应的图像特征,并基于所述声音数据调用声音识别接口进行声音识别,得到对应的声音特征。进一步的,所述声音还原元件包括扬声器,所述声音还原元件依据所述当前视频显示屏预先划分的分区独立设置;所述分区的数量依据显示屏的大小进行设定。进一步的,所述根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声包括;将所述声音数据通过ATMOS解码,得到IIS音频信号;根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。进一步的,所述基于所述图像特征判断所述当前播放视频是否存在发声源,包括:将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配;当匹配相似度达到设定阈值时,则确定所述当前播放视频存在发声源;其中,所述预设图像特征数据库中的图像特征包括人体形态特征和/或动物形态特征。进一步的,所述基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,包括:将所述声音特征与预先建立的模型发声源的模型特征进行比对;若存在与所述声音特征一致的模型特征且与所述模型特征对应的模型发声源与所述当前播放视频中存在的发声源相同,则确定所述当前播放视频存在与所述发声源匹配的音源。进一步的,所述控制与所述位置信息对应的声音还原元件发声,包括:当所述声音还原元件发出的声音幅度超过设定上限时,则降低所述声音还原元件的发声增益,否则提高所述声音还原元件的发声增益。第二方面,本专利技术实施例提供了一种实现声音与图像同位的装置,所述装置包括:识别模块,用于对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;发声源判断模块,用于基于所述图像特征判断所述当前播放视频是否存在发声源;获取模块,用于若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;音源判断模块,用于基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源;控制模块,用于若存在与所述发声源匹配的音源,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。第三方面,本专利技术实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述第一方面所述的实现声音与图像同位的方法。第四方面,本专利技术实施例提供了一种包含计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时实现如上述第一方面所述的实现声音与图像同位的方法。本专利技术实施例提供的一种实现声音与图像同位的方法,通过对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;然后基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声,实现了声音与图像的同位置呈现,使观看视频的用户感觉到视频声音的位置与视频中发出声音的对象的位置基本一致,提高了视频的播放效果,提升了用户体验。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对本专利技术实施例描述中所需要使用的附图作简单的介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据本专利技术实施例的内容和这些附图获得其他的附图。图1为本专利技术实施例一提供的一种实现声音与图像同位的方法流程示意图;图2为本专利技术实施例一提供的另一种实现声音与图像同位的方法流程示意图;图3为本专利技术实施例二提供的一种实现声音与图像同位的方法过程示意图;图4为本专利技术实施例二提供的一种显示屏分区示意图;图5为本专利技术实施例二提供的一种根据所述控制信号控制对应功率放大器工作以驱动对应的扬声器发声的流程示意图;图6为本专利技术实施例三提供的一种实现声音与图像同位的装置的结构示意图;图7为本专利技术实施例四提供的一种电子设备的结构示意图。具体实施方式为使本专利技术解决的技术问题、采用的技术方案和达到的技术效果更加清楚,下面将结合附图对本专利技术实施例的技术方案作进一步的详细描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例一图1为本专利技术实施例一提供的一种实现声音与图像同位的方法流程示意图。本实施例提供的实现声音与图像同位的方法可应用在具有大尺寸显示屏的电子产品上,例如65寸及以上的电视机产品;当显示屏尺寸较小时,由于声音还原系统与视频图像(即发声源)之间的距离较近,声音与图像同位的音响效果无法被突出体现。所述实现声音与图像同位的方法适用于具有明显方向属性的声音特征的视频的播放过程中,所述具有明显方向属性的声音特征的视频例如是包含有人物且所述人物发出了说话的声音,吵架的声音或者唱歌的声音的视频,或者包含有动物且所述动物发出了叫声的视频,或者包含有物体且所述物体发出了敲打声(例如打铁、电焊等)或者打碎物体声音(例如打碎玻璃或者碗等陶瓷制品的声音)的视频,即具有明显声音特征本文档来自技高网...

【技术保护点】
1.一种实现声音与图像同位的方法,其特征在于,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。

【技术特征摘要】
1.一种实现声音与图像同位的方法,其特征在于,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。2.根据权利要求1所述的方法,其特征在于,所述对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征,包括:对当前播放视频进行解码,分别得到当前播放视频对应的图像数据和声音数据;基于所述图像数据调用图像识别接口进行图像识别,得到对应的图像特征,并基于所述声音数据调用声音识别接口进行声音识别,得到对应的声音特征。3.根据权利要求2所述的方法,其特征在于,所述声音还原元件包括扬声器,所述声音还原元件依据所述当前视频显示屏预先划分的分区独立设置;所述分区的数量依据显示屏的大小进行设定。4.根据权利要求3所述的方法,其特征在于,所述根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声包括;将所述声音数据通过ATMOS解码,得到IIS音频信号;根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。5.根据权利要求1所述的方法,其特征在于,所述基于所述图像特征判断所述当前播放视频是否存在发声源,包括:将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配;当匹配相似度达到设定阈值时,则确定所述当前播放视频存在发声源...

【专利技术属性】
技术研发人员:赵新科
申请(专利权)人:深圳创维RGB电子有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1