一种多路语音识别的语音采集方法、装置制造方法及图纸

技术编号:26480627 阅读:17 留言:0更新日期:2020-11-25 19:26
本发明专利技术公开了一种多路语音识别的语音采集方法,所述方法包括:获取用户第一语音信号;根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。通过本发明专利技术的方法,能够优化多路语音识别中麦克风阵列的语音采集过程,提高了语音识别的准确性,提升了用户体验。

【技术实现步骤摘要】
一种多路语音识别的语音采集方法、装置
本专利技术实施例涉及信息处理
,特别涉及一种多路语音识别的语音采集方法、装置。
技术介绍
语音识别的准确率一直是语音识别领域长期研究的问题,语音识别的准确率的提升通常包含两方面,一方面是对语音样本的富集以及训练模型的优化,一方面是获取的语音信号质量的提升。在目前的智能家居的场景中,一个智能家居设备,例如智能音箱往往是通过多麦克风阵列来采集声音的,例如通过一个N麦阵列将空间分为了N个音区,当用户在第1音区通过唤醒词唤醒设备时,多麦克风阵列只采集第1音区的声音,屏蔽剩余音区麦克风采集的信号,以提升语音信号质量。但是现有技术的弊端在于,当用户在第1音区唤醒设备,然后移动到第2音区后,设备无法自动判断,导致信号就无法采集或者采集不清晰,这时需要用户在第2音区通过唤醒词重新唤醒,或者通过重新采集全部音区的信号执行语音识别实现交互,从而导致用户使用体检较差。如何优化语音采集及语音识别成为一个亟待解决的问题。
技术实现思路
针对现有技术中的问题,本专利技术提供一种多路语音识别的语音采集方法、装置、终端设备和计算机可读存储介质。本专利技术提供一种多路语音识别的语音采集方法,其特征在于,所述方法包括:步骤100,获取用户第一语音信号;步骤101,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;步骤103,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,执行步骤104;步骤104,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。本专利技术还提供一种多路语音识别的语音采集装置,其特征在于,所述装置包括:接口模块,获取用户第一语音信号;控制模块,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;所述接口模块,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;所述控制模块,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。本专利技术还提供一种终端设备,其特征在于,所述终端设备包括处理器和存储器,所述存储器中存储有可在处理器上运行的计算机程序,所述计算机程序在被所述处理器执行时实现如上所述的方法。本专利技术还提供一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有可在处理器上运行的计算机程序、所述计算机程序在被执行时实现如上所述的方法。通过本专利技术的方法,能够优化多路语音识别ASR中麦克风阵列的语音采集过程,提高了语音识别的准确性,提升了用户体验。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例中的一种多路语音识别的语音采集方法。图2是本专利技术一个实施例中的一种用户位置移动判断流程。图3是本专利技术一个实施例中的基于多用户的语音采集方法。图4是本专利技术一个实施例中的基于多用户的语音采集流程。图5是本专利技术实施例中的一种多路语音识别的语音采集装置、或基于多用户的语音采集装置示意。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。本专利技术的实施例以及实施例的具体特征是对本专利技术实施例技术方案的详细说明,而非对本专利技术说明书技术方案的限定,在不冲突的情况下,本专利技术的实施例以及实施例的技术特征可以相互结合。本专利技术的方法可以应用于任何具有语音交互能力的装置或设备,如计算机、手机,平板电脑,车机,车载终端,智能音箱,机顶盒,智慧型家电等。实施例一参考图1,本专利技术实施例一提供一种多路语音识别方法,其特征在于,所述方法包括步骤100,获取用户第一语音信号;步骤101,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;步骤103,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,执行步骤104;步骤104,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。优选地,所述麦克风阵列包含多个麦克风,例如包含N个麦克风,优选地所述N为大于等于6的整数。所述麦克风阵列可以是线形、环形、和/或球形分布。所述麦克风包括全向和/或定向麦克风。基于所述麦克风阵列将声源空间划分为N个子音区,每一子音区对应一个或多个麦克风。优选地,所述步骤100中所述用户第一语音信号包含唤醒词,所述唤醒词为默认设置,或者基于用户预先设定。优选地,所述步骤100中所述基于所述第一语音信号唤醒语音助手;优选地,所述步骤100中,在全双工语音交互场景,接收用户的第一语音信号;优选地,所述步骤101中根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区具体包括:步骤1011,基于所述麦克风阵列中多个麦克风采集的第一语音信号,利用声源到达方向(DOA)估计,确定用户当前位置;步骤1012,基于用户当前位置,确定所述麦克风阵列的主音区;步骤1013,基于所述麦克风阵列的主音区,确定与其相邻的至少两个辅助音区。具体地,例如利用六个环形分布的麦克风将声源空间划分为六个子音区。例如基于所述麦克风阵列的主音区1,确定与左右相邻的两个辅助音区2和6。或者,基于立体阵列分布的麦克风,将声源空间划分为N个子音区,确定出麦克风阵列的主音区Ni,j,以及与主音区Ni,j周边相邻的M个辅助音区。其中每个音区是做了该目标范围的波束成形(beamforming),通过波束成形增强目标说话人方向语音信号,波束成形的分界点即为各个音区的分界点。通常,智能语音设备,例如智能音一般多设置于智能家居场景或者车载环境,在上述环境中,通过唤醒词来唤醒设备进行语音识别与交互,或者基于全双工(FullDuplex)技术,进行全双工免唤醒,实现人机交互。例如,在室内,用户A发出“小蓦,XXX”,智能语音设备激活并进入语音识别和交互过程;或者用户A发出“我想。。”等语音,智能语音设备识别出用户发出的语音信息是给它的指令,则进入语音识别的状态。优选地,步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号可以包括:步骤102本文档来自技高网...

【技术保护点】
1.一种多路语音识别的语音采集方法,其特征在于,所述方法包括:/n步骤100,获取用户第一语音信号;/n步骤101,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;/n步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;/n步骤103,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,执行步骤104;/n步骤104,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。/n

【技术特征摘要】
1.一种多路语音识别的语音采集方法,其特征在于,所述方法包括:
步骤100,获取用户第一语音信号;
步骤101,根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区;
步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号;
步骤103,根据所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号,判断用户是否移动位置,如果用户移动位置,执行步骤104;
步骤104,调整用户移动后位置区对应的音区为更新的主音区,基于所述更新的主音区确定至少两个更新的辅助音区。


2.根据权利要求1所述的方法,其特征在于,所述步骤101中根据所述第一语音信号确定所述麦克风阵列的主音区以及至少两个辅助音区具体包括:
步骤1011,基于所述麦克风阵列中多个麦克风采集的第一语音信号,利用声源到达方向(DOA)估计,确定用户当前位置;
步骤1012,基于用户当前位置,确定所述麦克风阵列的主音区;
步骤1013,基于所述麦克风阵列的主音区,确定与其相邻的至少两个辅助音区。


3.根据权利要求1所述的方法,其特征在于,步骤102,采集所述麦克风阵列主音区以及至少两个辅助音区的语音信号可以包括:
步骤1021,获取麦克风阵列主音区及至少两个辅助音区的语音信号,
步骤1022,获取多个音区的语音信号的信号强度,构建音区和信号强度的关系数据。


4.根据权利要求3所述的方法,其特征在于,步骤103中,所述监测所述麦克风阵列的主音区以及至少两个辅助音区采集的语音信号进一步包括:
步骤1031,基于预设周期,对主音区和辅助音区的信号强度进行监测,并更新所述关系数据;
步骤1032,根据所述音区和信号强度的关系数据,判断映射到不同音区的信号强度的大小。


5.根据权利要求4所述的方法,其特征在于,
如果主音区的信号强度大于所有辅助音区的信号强度,则判断用户未移动位置;
如果主音区的信号强度小于或等于任一相邻的第一辅助音区的信号强度,则触发周期变更标记,基于所述周期变更标记,将所述预设周期变更为第一周期,所述第一周期值小于预设周期值;
基于所述第一周期,更新所述音区和信号强度的关系数据;
判断所述主音区的信号强度与所述第一辅助音区的信号强度的差值是否大于或等于第一阈值;
如果所述主音区的信号强度与所述第一辅助音区的信号强度的差值大于或等于第一阈值,则确定用户满足第一触发条件;
根据所述第一辅助音区的语音信号,进行语音识别,根据识别结果,判断是否为有效内容,若为有效内容,则确定用户位置发生移动。


6.一种多路语音识别的语...

【专利技术属性】
技术研发人员:牛坤赵晓朝袁志伟
申请(专利权)人:北京蓦然认知科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1