The embodiment of the present invention discloses a method, device, device and medium for realizing sound and image co-location. The method includes: image recognition and sound recognition of the current playing video respectively to obtain the image and sound features corresponding to the current playing video; judging whether there is a sound source for the current playing video based on the image features; and acquiring the sound source if there is a sound source; The position information of the sound source of the current playing video on the current video display screen; judging whether the current playing video exists a sound source matching the sound source based on the sound characteristics; if there exists, generating a control signal according to the position information of the sound source on the current video display screen to control the sound reproduction element corresponding to the position information; wherein the preset is used to control the sound reproduction element corresponding to the position information. The image feature database is pre-constructed according to the current playing video. By adopting the above technical scheme, the playback effect of the video can be improved and the viewer can have a strong sense of presence.
【技术实现步骤摘要】
一种实现声音与图像同位的方法、装置、设备及介质
本专利技术实施例涉及智能电视
,尤其涉及一种实现声音与图像同位的方法、装置、设备及介质。
技术介绍
现在的电子显示类产品,如大尺寸液晶电视,在播放视频的时候,视频图像是通过显示屏呈现出来,而视频声音则是通过设置在电视其它位置的扬声器发声,由于视频声音与对应的视频图像不在同一个位置,导致视频的播放效果不佳,用户观看视频时的临场感不强。
技术实现思路
本专利技术提供一种实现声音与图像同位的方法、装置、设备及介质,通过所述方法有效实现声音与图像的同位置呈现,提高视频的播放效果。为实现上述目的,本专利技术实施例采用如下技术方案:第一方面,本专利技术实施例提供了一种实现声音与图像同位的方法,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。进一步的,所述对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征,包括:对当前播放视频进行解码,分别得到当前播放视频对应的图像数据和声音数据;基于所述图像数据调用图像识别接口进行图像 ...
【技术保护点】
1.一种实现声音与图像同位的方法,其特征在于,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。
【技术特征摘要】
1.一种实现声音与图像同位的方法,其特征在于,所述方法包括:对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征;基于所述图像特征判断所述当前播放视频是否存在发声源;若所述当前播放视频存在发声源,则基于所述图像特征从预设图像特征数据库中获取所述当前播放视频的发声源在当前视频显示屏的位置信息;基于所述声音特征判断所述当前播放视频是否存在与所述发声源匹配的音源,若存在,则根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声;其中,所述预设图像特征数据库依据所述当前播放视频预先构建。2.根据权利要求1所述的方法,其特征在于,所述对当前播放视频分别进行图像识别以及声音识别,以获取所述当前播放视频对应的图像特征和声音特征,包括:对当前播放视频进行解码,分别得到当前播放视频对应的图像数据和声音数据;基于所述图像数据调用图像识别接口进行图像识别,得到对应的图像特征,并基于所述声音数据调用声音识别接口进行声音识别,得到对应的声音特征。3.根据权利要求2所述的方法,其特征在于,所述声音还原元件包括扬声器,所述声音还原元件依据所述当前视频显示屏预先划分的分区独立设置;所述分区的数量依据显示屏的大小进行设定。4.根据权利要求3所述的方法,其特征在于,所述根据所述发声源在当前视频显示屏的位置信息生成控制信号,以控制与所述位置信息对应的声音还原元件发声包括;将所述声音数据通过ATMOS解码,得到IIS音频信号;根据所述IIS音频信号以及所述控制信号控制与所述位置信息对应的功率放大器工作以驱动对应的扬声器发声。5.根据权利要求1所述的方法,其特征在于,所述基于所述图像特征判断所述当前播放视频是否存在发声源,包括:将所述图像特征与预设图像特征数据库中的图像特征进行相似度匹配;当匹配相似度达到设定阈值时,则确定所述当前播放视频存在发声源...
【专利技术属性】
技术研发人员:赵新科,
申请(专利权)人:深圳创维RGB电子有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。