一种视频终端以及一种音频码流处理方法技术

技术编号：3592768 阅读：169 留言：0更新日期：2012-04-11 18:40

本发明专利技术的实施例公开了一种音频码流处理的方法，该方法为：对视频压缩码流进行解码，获得包含音源的图像，在所述的图像中检测所述音源的位置信息；对音频压缩码流进行解码，获得语音信息；根据所述音源的位置信息对所述语音信息进行处理，使重放的声音方位和所述音源的位置相匹配。这样，接收端不需要依赖于发送端提供的音源位置信息，也可以使音源的位置信息和重放的声音方位信息相匹配。本发明专利技术的实施例同时还公开了一种视频终端。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及通讯技术，特别是涉及。
技术介绍
随着宽带的普及，视频通讯在我们的社会生活中占据着越来越重要的地位，通讯的视频化时代已揭开帷幕。但是，目前电视机的屏幕越来越大，而有的视频通讯系统采用投影仪或电视墙显示，导致与会者在画面上移动的位置较大，而目前的多媒体通讯系统的声音并没有根据说话人的位置发生改变，即声音没有方位信息，导致视频通讯缺乏真实感。现有技术公开了一种解决上述问题的方法在电视机顶部放置一个长条型的装置，在该装置里有多个麦克风，多个扬声器，以及摄像头。对多个麦克风采集的声音信号进行处理之后，可以获得一个语音信号，以及一个相对于长条型装置的说话人方位信息。视频通讯系统的发送端将获得的语音信号和说话人方位信息通过网络传送到接收端，接收端根据接收到的方位信息，选择一个或多个扬声器播放，这样在接收端就可以重现说话人的方位信息。在上述方案中，发送端采集的说话人方位信息是相对于长条型装置的，而不是相对于摄像机镜头的。当转动摄像机镜头时，长条形装置正前方的说话人就在画面的旁边，甚至不在画面之内，而采集的声音方位信息还是正前方的，这样就导致画面中说话人的位置和采集的声音方位信息不匹配。另外，发送端需要将方位信息通过网络发送给接收端，如果发送端和接收端是不同厂家的设备，就会存在互通的问题，就是说接收端不能正确处理发送端的方位信息。
技术实现思路
本专利技术的实施例提供，使得发送端不需要将音源位置信息通过网络发送给接收端，重放的声音也可以和音源的位置实现准确的匹配。一种音频码流处理方法，其特征在于，所述方法具体包括对视频压缩码流进行解码，获得...

【技术保护点】
一种音频码流处理方法，其特征在于，包括：对视频压缩码流进行解码，获得包含音源的图像，在所述的图像中检测所述音源的位置信息；对视频压缩码流对应的音频压缩码流进行解码，获得语音信息；根据所述音源的位置信息对所述语音信息进行处理，使重放的声音方位和所述音源的位置相匹配。

【技术特征摘要】
1.一种音频码流处理方法，其特征在于，包括对视频压缩码流进行解码，获得包含音源的图像，在所述的图像中检测所述音源的位置信息；对视频压缩码流对应的音频压缩码流进行解码，获得语音信息；根据所述音源的位置信息对所述语音信息进行处理，使重放的声音方位和所述音源的位置相匹配。2.如权利要求1所述的方法，其特征在于，当所述的音源为说话人时，所述的在所述的图像中检测所述音源的位置信息具体为从所述的图像中提取所述说话人的嘴唇特征，根据所述的嘴唇特征检测出唇动的位置，从而确定所述说话人的位置信息。3.如权利要求2所述的方法，如果在所述的视频压缩码流解码得到的前一帧图像中已检测出唇动的位置，则当前帧在所述前一帧唇动位置的附近检测是否有嘴唇存在。4.如权利要求2所述的方法，其特征在于，当用至少两个扬声器重放所述语音时，所述的根据所述音源的位置信息对所述语音信息进行处理具体为调整所述扬声器左右声道声音的幅度，使声音的水平方位和所述说话人位置相匹配。5.如权利要求2所述的方法，其特征在于，所述的在所述的图像中检测所述音源的位置信息进一步包括当所述的图像中有多个唇动位置时，计算所述多个唇动位置的中心位置，并将此中心位置作为输出的说话人的位置。6.如权利要求2所述的方法，其特征在于，所述的嘴唇特征包括嘴唇的颜色。7.如权利要求6所述的方法，其特征在于，在根据嘴唇的颜色确定嘴唇位置后，进一步判断嘴唇周围的颜色是否是皮肤的颜色。8.如权利...

【专利技术属性】
技术研发人员：詹五洲，
申请(专利权)人：华为技术有限公司，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人