【技术实现步骤摘要】
一种设备的语音操作方法、装置和电子设备
[0001]本申请涉及语音识别
,尤其涉及一种设备的语音操作、装置和电子设备。
技术介绍
[0002]语音识别技术,也被称为自动语音识别(Automatic Speech Recognition,ASR),其目标是将人类的语音中的词汇内容转换为计算机可读的输入,例如按键、二进制编码或者字符序列。语音识别与说话人识别及说话人确认不同,说话人识别及说话人确认技术尝试识别或确认发出语音的说话人而非语音中所包含的词汇内容和意义。语音识别技术的最大优势在于使得人机交互更加自然和是的交互设备更加容易使用。
[0003]近年来单人说话场景下的语音识别技术已经发展的比较成熟,现有语音识别ASR技术可以有效地将单说话人的语音信号识别为文本。但是在嘈杂环境下,尤其是多用户说话场景下或者使用环境存在背景语音时现有语音识别系统的语音识别效果就会大幅变差。
[0004]语音识别系统性能的优劣取决于语音信号的质量和单个说话人还是多说话人;其中语音信号的质量问题可以通过回声消除、噪声抑制、自动 ...
【技术保护点】
【技术特征摘要】
1.一种设备的语音操作方法,其特征在于,所述方法包括:获取摄像头采集的视频;获取麦克风采集的语音信息;检测所述视频中的人脸图像;提取所述人脸图像的唇部特征及面部特征;根据所述唇部特征,确定时间区间;根据所述时间区间在所述语音信息中截取对应的音频片段;根据所述面部特征获取声纹信息;根据所述声纹信息对所述音频片段进行语音识别,获取语音信息。2.根据权利要求1所述的设备的语音操作方法,其特征在于,所述获取语音信息,还包括:检测所述视频中是否存在人脸图像;在存在所述人脸图像的情况下记录所述语音信息。3.根据权利要求1或2所述的设备的语音操作方法,其特征在于,所述用户的数量为多个,所述检测所述视频中的人脸图像,提取所述人脸图像的唇部特征和面部特征,包括:检测所述视频中的第一人脸图像和第二人脸图像,从所述第一人脸图像中提取第一唇部特征和第一面部特征从所述第二人脸图像中提取第二唇部特征和第二面部特征。4.根据权利要求3所述的设备的语音操作方法,其特征在于,所述根据所述唇部特征,确定时间区间;根据所述时间区间在所述语音信息中截取对应的音频片段,包括:根据所述第一唇部特征,确定第一时间区间;根据所述第一时间区间,在所述语音信息中截取第一音频片段;根据所述第二唇部特征,确定第二时间区间;根据所述第二时间区间,在所述语音信息中截取第二音频片段。5.根据权利要求1所述的设备的语音操作方法,其特征在于,所述获取所述用户的声纹信息,包括:根据所述面部特征在所述设备中查找对应的声纹信息,获取所述用户的声纹信息。6.根据权利要求3所述的设备的语音操作方法,其特征在于,所述获取所述用户的声纹信息,包括:根据所述第一面部特征在所述设备中查找对应的声纹信息,获取第一声纹信息;根据所述第二面部特征在所述设备中查找对应的声纹信息,获取第二声纹信息。7.根据权利要求1所述的设备的语音操作方法,其特征在于,所述获取所述用户的声纹信息,包括:根据所述面部特征在所述设备中查找对应的声纹信息,如果查找结果为不存在,则根据所述时间区间确定所述用户处于单独说话状态的第三时间区间;根据所述第三时间区间从所述语音信息中截取第三音频片段,提取所述第三音频片段的声纹特征,获得所述用户的声纹信息。8.根据权利要求4所述的设备的语音操作方法,其特征在于,所述获取所述用户的声纹信息,包括:根据所述面部特征在所述设备中查找对应的声纹信息,如果查找结果为不存在,则根据所述第一时间区间和第二时间区间的差值确定处于确定所述用户处于单独说话
状态的第三时间区间;根据所述第三时间区间从所述语音信息中截取第三音频片段,提取所述第三音频片段的声纹特征,获得所述用户的声纹信息。9.根据权利...
【专利技术属性】
技术研发人员:许哲,陈天珞,秦磊,卢曰万,
申请(专利权)人:华为技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。