一种视频终端以及一种音频码流处理方法技术

技术编号:3592768 阅读:169 留言:0更新日期:2012-04-11 18:40
本发明专利技术的实施例公开了一种音频码流处理的方法,该方法为:对视频压缩码流进行解码,获得包含音源的图像,在所述的图像中检测所述音源的位置信息;对音频压缩码流进行解码,获得语音信息;根据所述音源的位置信息对所述语音信息进行处理,使重放的声音方位和所述音源的位置相匹配。这样,接收端不需要依赖于发送端提供的音源位置信息,也可以使音源的位置信息和重放的声音方位信息相匹配。本发明专利技术的实施例同时还公开了一种视频终端。

【技术实现步骤摘要】

本专利技术涉及通讯技术,特别是涉及。
技术介绍
随着宽带的普及,视频通讯在我们的社会生活中占据着越来越重要的地位,通讯的视频化时代已揭开帷幕。但是,目前电视机的屏幕越来越大,而有的视频通讯系统采用投影仪或电视墙显示,导致与会者在画面上移动的位置较大,而目前的多媒体通讯系统的声音并没有根据说话人的位置发生改变,即声音没有方位信息,导致视频通讯缺乏真实感。 现有技术公开了一种解决上述问题的方法在电视机顶部放置一个长条型的装置,在该装置里有多个麦克风,多个扬声器,以及摄像头。对多个麦克风采集的声音信号进行处理之后,可以获得一个语音信号,以及一个相对于长条型装置的说话人方位信息。视频通讯系统的发送端将获得的语音信号和说话人方位信息通过网络传送到接收端,接收端根据接收到的方位信息,选择一个或多个扬声器播放,这样在接收端就可以重现说话人的方位信息。 在上述方案中,发送端采集的说话人方位信息是相对于长条型装置的,而不是相对于摄像机镜头的。当转动摄像机镜头时,长条形装置正前方的说话人就在画面的旁边,甚至不在画面之内,而采集的声音方位信息还是正前方的,这样就导致画面中说话人的位置和采集的声音方位信息不匹配。 另外,发送端需要将方位信息通过网络发送给接收端,如果发送端和接收端是不同厂家的设备,就会存在互通的问题,就是说接收端不能正确处理发送端的方位信息。
技术实现思路
本专利技术的实施例提供,使得发送端不需要将音源位置信息通过网络发送给接收端,重放的声音也可以和音源的位置实现准确的匹配。 一种音频码流处理方法,其特征在于,所述方法具体包括对视频压缩码流进行解码,获得包含音源的图像,在所述的图像中检测所述音源的位置信息;对视频压缩码流对应的音频压缩码流进行解码,获得语音信息;根据所述音源的位置信息对所述语音信息进行处理,使重放的声音方位和所述音源的位置相匹配。 一种视频终端,其特征在于,视频解码模块,用于对接收到的视频压缩码流进行解码,并输出解码后的图像;音频解码模块,用于对接收到的视频压缩码流对应的音频压缩码流进行解码,并输出解码后的语音信息;音源位置检测模块,用于接收视频解码模块发送的图像,并提取音源的特征,从而检测到音源的位置信息;声音方位处理模块,用于接收音频解码模块发送的语音信息和音源位置检测模块发送的音源位置信息,将声音方位和音源的位置相互匹配。 本专利技术的实施例通过检测图像中音源的位置信息,对重放的声音进行处理,可以使得扬声器中重放的声音的方位和图像中音源的位置相互匹配;同时接收终端不必依赖发送终端提供音源位置信息。附图说明图1是本专利技术实施例的方法流程图;图2是本专利技术实施例的一个应用场景;图3是本专利技术实施例中唇动检测的流程 图4是本专利技术实施例中视频终端的结构图。具体实施方式本专利技术的实施例提供了一种音频码流处理方法。如图1所示,本方法由如下步骤组成对视频压缩码流进行解码,获得包含音源的图像,在所述的图像中检测所述音源的位置信息;对视频压缩码流对应的音频压缩码流进行解码,获得语音信息;根据所述音源的位置信息对所述语音信息进行处理,使重放的声音方位和所述音源的位置相匹配。 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。 下面以一个视频会议作为本专利技术实施例的一个应用场景来详细说明本专利技术。但该应用场景并不用来限定本专利技术。 图2是视频通信系统的示意图。在图2中,10是发送端会场,11是接收端会场,12是通信网络,通信网络可以是IP网络、PSTN网络、无线网络等。在会场10中,101是摄像头,102是视频通信终端,103是电视机,104是参会者,105、106是扬声器。终端102中内置有麦克风,也可以是独立的置于外部,通过传输线和终端112相连接。在会场11中,111是摄像头,112是视频通信终端,113是电视机,104a是参会者104的图像,115、116是扬声器。终端112中内置有麦克风,也可以是独立的置于外部,通过传输线和终端102相连接。发送端会场10中的摄像头101捕获图像后,传送到终端102,终端102对图像经过编码等处理之后,通过网络12传输到终端112,终端112对接收到的图像码流进行解码,并将解码之后的图像传输到电视机113上显示。会场10中的麦克风捕获声音信号之后,传递给终端102,终端102进行音频编码,通过网络12将编码后的音频码流传输给终端112,终端112对接收到的音频码流解码之后,传送给扬声器115、116重放。 在图2的11会场中,为了使声音具有临场感,需要使扬声器115、116重放的声音和说话人104a的位置相匹配。 下面我们以在视频会议中,会议中的说话人为音源作为例子对本专利技术的方法进行说明Step1将发送端传送过来的视频压缩码流进行视频解码,得到发送端的图像,然后检测出图像中说话人的位置信息。 对视频压缩码流进行视频解码,得到的是多帧图像,然后对帧序列中的图像进行检测,得到说话人的位置信息。 其中,检测说话人位置的方法有许多种,例如采用图像识别技术,用说话人的某些特点作为特征检测出图像中说话人的位置,可以用于检测的特征包括人脸、眼睛、嘴唇等,下面我们以说话人的嘴唇作为特征为例子,来说明如何通过检测说话人的唇动位置来确定说话人的位置信息。 请参考图3的唇动检测处理流程。 S11检测当前帧的唇动位置,如果当前帧有唇动,则执行步骤S12;否则执行步骤S14;S12进一步判断是否有多个唇动位置,如果有多个唇动位置,则在多个唇动位置中选择一个唇动位置,或计算多个唇动位置的中心位置并将此中心位置作为唇动位置,执行步骤S13;否则,直接执行步骤S13;S13输出唇动位置;S14不输出唇动位置。 唇动位置即说话人的嘴唇所在的位置。检测唇动位置可以采用现有技术中的检测方法。一个简单有效的方法是根据嘴唇的颜色,唇色的搜索可以在YIQ或YUV颜色空间进行。例如,在YIQ空间,经过统计及实验效果,得到唇色各分量的最佳阈值分别为Y∈[80,220],I∈[12,78],Q∈[7,25]。根据这些阈值可以比较容易的搜索出嘴唇的位置。如果只根据唇色进行搜索,不可避免的会带来一些误判,因而还可以在根据唇色搜索出嘴唇位置后,进一步根据嘴唇周围的肤色来判断。肤色也有一个相对集中的阈值范围,利用这些阈值范围可以判断出嘴唇周边的颜色是否是肤色,如果是则说明嘴唇位置的判断是正确的,否则不正确。此外可以利用的特征还有眼部特征等。 在判断出嘴唇的位置之后还需要判断嘴唇是否处于运动状态,这可以根据前后若干帧图像相同位置的嘴唇的大小以及变化的快慢就可以很容易的做出判断。由于唇动位置具有连续性,因此不需要每帧图像都在图像的整个范围内检测唇动位置,具体方法是如果前一帧已检测出唇动的位置,则检测当前帧的唇动位置可以在前一帧唇动位置的附近检测是否有嘴唇存在,如果没有,则在整个图像范围内搜索唇动位置,如果有,则进一步判断嘴唇是否在运动;如果在运动,则将运动嘴唇的位置作为唇动位置,否则,设置一个预定帧数,在当前帧之后的预定帧数之内都保持唇动位置不变,如果超过预定帧数嘴唇都没有运动,则重本文档来自技高网...

【技术保护点】
一种音频码流处理方法,其特征在于,包括:对视频压缩码流进行解码,获得包含音源的图像,在所述的图像中检测所述音源的位置信息;对视频压缩码流对应的音频压缩码流进行解码,获得语音信息;根据所述音源的位置信息对所述语音信息进 行处理,使重放的声音方位和所述音源的位置相匹配。

【技术特征摘要】
1.一种音频码流处理方法,其特征在于,包括对视频压缩码流进行解码,获得包含音源的图像,在所述的图像中检测所述音源的位置信息;对视频压缩码流对应的音频压缩码流进行解码,获得语音信息;根据所述音源的位置信息对所述语音信息进行处理,使重放的声音方位和所述音源的位置相匹配。2.如权利要求1所述的方法,其特征在于,当所述的音源为说话人时,所述的在所述的图像中检测所述音源的位置信息具体为从所述的图像中提取所述说话人的嘴唇特征,根据所述的嘴唇特征检测出唇动的位置,从而确定所述说话人的位置信息。3.如权利要求2所述的方法,如果在所述的视频压缩码流解码得到的前一帧图像中已检测出唇动的位置,则当前帧在所述前一帧唇动位置的附近检测是否有嘴唇存在。4.如权利要求2所述的方法,其特征在于,当用至少两个扬声器重放所述语音时,所述的根据所述音源的位置信息对所述语音信息进行处理具体为调整所述扬声器左右声道声音的幅度,使声音的水平方位和所述说话人位置相匹配。5.如权利要求2所述的方法,其特征在于,所述的在所述的图像中检测所述音源的位置信息进一步包括当所述的图像中有多个唇动位置时,计算所述多个唇动位置的中心位置,并将此中心位置作为输出的说话人的位置。6.如权利要求2所述的方法,其特征在于,所述的嘴唇特征包括嘴唇的颜色。7.如权利要求6所述的方法,其特征在于,在根据嘴唇的颜色确定嘴唇位置后,进一步判断嘴唇周围的颜色是否是皮肤的颜色。8.如权利...

【专利技术属性】
技术研发人员:詹五洲
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:94[中国|深圳]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利