【技术实现步骤摘要】
基于语音控制的多人视频聊天方法及装置
本专利技术涉及语音视频
,特别是涉及基于语音控制的多人视频聊天方法及装置。
技术介绍
随着互联网技术的发展及移动网络的广泛应用,语音视频技术越来越多的应用到生活的各个方面。在多人视频聊天的过程中,非主讲人的音频输入容易影响正常的通信。现有技术中,为防止非主讲人的麦克风的杂音,当用户不发言时需要主动关闭麦克风,在发言时在主动手动启动麦克风。但是人工手动切换麦克风的工作状态,在多人语音视频中,会存在频繁切换的情况,而且容易发生用户忘记切换的情况,当用户忘记切换麦克风的工作状态时,非主讲人麦克风的杂音会影响主讲人的正常发言,并且用户频繁切换麦克风的工作状态,用户体验差。
技术实现思路
本专利技术实施例的目的在于提供一种基于语音控制的多人视频聊天方法及装置,以实现自动多人视频聊天的语音自停启控制,提高用户体验。具体技术方案如下:一种基于语音控制的多人视频聊天方法,包括:获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;分别在每个所述时段内删 ...
【技术保护点】
一种基于语音控制的多人视频聊天方法,其特征在于,包括:获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;分别在每个所述时段内删除除所述主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。
【技术特征摘要】
1.一种基于语音控制的多人视频聊天方法,其特征在于,包括:获取多人视频聊天中,每个用户的音频输入信息中的音频特征和图像输入信息中的图像特征;利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标;分别在每个所述时段内删除除所述主发声目标以外的其他发声目标的音频输入信息,得到过滤后的音频输入信息;将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息。2.根据权利要求1所述的方法,其特征在于,所述音频特征包括:音频的波形;所述图像特征包括:图像的纹理。3.根据权利要求1或2所述的方法,其特征在于,所述利用所述图像特征及所述音频特征,确定出每个时段内的主发声目标,包括:分别在每个所述时段内,选取图像特征的变化量小于预设变化阈值的图像特征所对应的用户,作为初级判定目标;在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征达到预设声音清晰度时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。4.根据权利要求1或2所述的方法,其特征在于,所述利用所述图像特征及所述音频特征,确定出每个预设时域中的主发声目标,包括:分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标。在所述初级判定目标所对应的时段内,当所述初级判定目标所对应的音频特征能够进行文字转换时,确定所述初级判定目标为所述初级判定目标所对应的时段内的主发声目标。5.根据权利要求4所述的方法,其特征在于,所述分别在每个所述时段内,选取包含人脸特征及人眼特征的图像特征所对应的用户,作为初级判定目标,包括:分别在每个所述时段内,选取包含人脸特征、人眼特征及人嘴型变化特征的图像特征所对应的用户,作为初级判定目标。6.根据权利要求1或2所述的方法,其特征在于,所述将所述过滤后的音频输入信息与所述图像输入信息分别进行混合,得到并输出混合后的音频输入信息及混合后的图像输入信息,包括:分别获取每个所述过滤后的音频输入信息的音频输入时间及每个所述图像输入信息的图像输入时间;根据所述图像输入时间,将所述图像输入信息进行混合,得到并输出混合后的图像输入信息;根据所述音频输入时间,将所述过滤后的音频输入信息进行混合,得到并输出混合后的音频输入信息。7.一种基于语音控制的...
【专利技术属性】
技术研发人员:龙翔,
申请(专利权)人:北京奇艺世纪科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。