一种语音信号识别方法和装置制造方法及图纸

技术编号:21303887 阅读:21 留言:0更新日期:2019-06-12 09:07
本申请实施例提供了一种语音信号识别方法和装置,所述方法包括:获取指定空间内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。在本申请实施例中,由于声源方向的语音激活检测信号,由该声源方向的连续语音信号和指向性标志信号组合得到,使得语音激活检测信号具有指向性,从而可以减少其他声源方向的连续语音信号对该声源方向的语音激活检测信号的干扰。

A Speech Recognition Method and Device

The embodiment of this application provides a speech signal recognition method and device, which includes: acquiring spatial audio signals in a specified space; separating continuous speech signals and corresponding directional sign signals for multiple sound source directions from the spatial audio signals according to the spatial audio signals; and pointing a needle for one sound source direction in multiple sound source directions. The continuous speech signal in the direction of the sound source is combined with the corresponding directional signal to generate the speech activation detection signal in the direction of the sound source. In the embodiment of this application, since the voice activation detection signal in the direction of the sound source is combined with the continuous voice signal in the direction of the sound source and the directional sign signal, the voice activation detection signal has directivity, thereby reducing the interference of the continuous voice signal in the direction of the other sound sources to the voice activation detection signal in the direction of the sound source.

【技术实现步骤摘要】
一种语音信号识别方法和装置
本申请涉及信号处理
,特别是涉及一种语音信号识别方法和一种语音信号识别装置。
技术介绍
在多人的语音交互场景中,通常采用语音激活检测VAD(VoiceActivityDetection)监听各个人的语音。例如,在会议中,可以通过语音激活检测监听各个发言人员的语音,然后对语音进行识别并记录,从而得到针对各个发言人员的会议记录。又例如,在汽车驾驶中,车载终端可以识别通过语音激活检测监听驾驶员的语音,然后识别驾驶员发出的语音,并根据驾驶员的语音执行用户所需要的操作。例如,唤醒车载终端,播放音乐,接听电话等。但是,目前语音激活检测存在的主要问题时,无法在多人同时发言的情况下,准确监听各个人的语音。
技术实现思路
鉴于上述问题,提出了本申请实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音信号识别方法和相应的一种语音信号识别装置。为了解决上述问题,本申请实施例公开了一种语音信号识别方法,包括:获取指定空间内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。优选的,所述空间音频信号包括:多个麦克风采集的多路原始音频信号;所述根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括:根据所述多路原始音频信号,估计信号到达方向;根据所述信号到达方向以及预设声源方向,生成针对预设声源方向的指向性标志信号;对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号。优选的,所述对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号的步骤包括:确定所述多路原始音频信号中两两信号之间的时延差;根据所述两两信号之间的时延差,对所述多路原始音频信号进行时延补偿;对时延补偿后的所述多路原始音频信号进行加权求和,生成针对声源方向的连续语音信号。优选的,所述针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号的步骤包括:确定每一帧连续语音信号对应的指向性标志信号;逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号;根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号;将每一帧连续语音信号中被设置为语音信号的信号,确定为语音激活检测信号。优选的,在根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号之后,还包括:确定非语音片段的时长,所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段;将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号,设置为语音信号。优选的,所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号;所述根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号的步骤包括:若对当前帧的连续语音信号的判断结果为语音信号,并且,相应的指向性标志信号为表示当前帧的时间具有语音信号,则设置当前帧的连续语音信号为语音信号。优选的,所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号;所述根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号的步骤包括:若对当前帧的连续语音信号的判断结果为语音信号,或,相应的指向性标志信号为表示当前帧的时间具有语音信号,则设置当前帧的连续语音信号为语音信号。优选的,所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括:将所述连续语音信号输入预置的神经网络模型,逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。优选的,在确定每一帧连续语音信号对应的指向性标志信号之前,还包括:确定非语音指示片段的时长,所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成;将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号,设置为表示当前帧的时间具有语音信号。本申请实施例还公开了一种语音信号识别方法,包括:获取车内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。优选的,所述空间音频信号包括:多个麦克风采集的多路原始音频信号;所述根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括:根据所述多路原始音频信号,估计信号到达方向;根据所述信号到达方向以及预设声源方向,生成针对预设声源方向的指向性标志信号;对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号。优选的,所述对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号的步骤包括:确定所述多路原始音频信号中两两信号之间的时延差;根据所述两两信号之间的时延差,对所述多路原始音频信号进行时延补偿;对时延补偿后的所述多路原始音频信号进行加权求和,生成针对声源方向的连续语音信号。优选的,所述针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号的步骤包括:确定每一帧连续语音信号对应的指向性标志信号;逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号;根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号;将每一帧连续语音信号中被设置为语音信号的信号,确定为语音激活检测信号。优选的,在根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号之后,还包括:确定非语音片段的时长,所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段;将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号,设置为语音信号。优选的,所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括:将所述连续语音信号输入预置的神经网络模型,逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。优选的,在确定每一帧连续语音信号对应的指向性标志信号之前,还包括:确定非语音指示片段的时长,所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成;将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号,设置为表示当前帧的时间具有语音信号。本申请实施例还公开了一种语音信号识别方法,包括:接收车载终端发送的车内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个本文档来自技高网...

【技术保护点】
1.一种语音信号识别方法,其特征在于,包括:获取指定空间内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。

【技术特征摘要】
1.一种语音信号识别方法,其特征在于,包括:获取指定空间内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。2.根据权利要求1所述的方法,其特征在于,所述空间音频信号包括:多个麦克风采集的多路原始音频信号;所述根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括:根据所述多路原始音频信号,估计信号到达方向;根据所述信号到达方向以及预设声源方向,生成针对预设声源方向的指向性标志信号;对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号。3.根据权利要求2所述的方法,其特征在于,所述对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号的步骤包括:确定所述多路原始音频信号中两两信号之间的时延差;根据所述两两信号之间的时延差,对所述多路原始音频信号进行时延补偿;对时延补偿后的所述多路原始音频信号进行加权求和,生成针对声源方向的连续语音信号。4.根据权利要求1所述的方法,其特征在于,所述针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号以及相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号的步骤包括:确定每一帧连续语音信号对应的指向性标志信号;逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号;根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号;将每一帧连续语音信号中被设置为语音信号的信号,确定为语音激活检测信号。5.根据权利要求4所述的方法,其特征在于,在根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号之后,还包括:确定非语音片段的时长,所述非语音片段为由连续的设置为非语音信号的各帧连续语音信号所构成的片段;将时长小于第一预设阈值的非语音片段中的每一帧连续语音信号,设置为语音信号。6.根据权利要求4所述的方法,其特征在于,所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号;所述根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号的步骤包括:若对当前帧的连续语音信号的判断结果为语音信号,并且,相应的指向性标志信号为表示当前帧的时间具有语音信号,则设置当前帧的连续语音信号为语音信号。7.根据权利要求4所述的方法,其特征在于,所述指向性标志信号表示了每一帧的时间是具有语音信号或具有非语音信号;所述根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号的步骤包括:若对当前帧的连续语音信号的判断结果为语音信号,或,相应的指向性标志信号为表示当前帧的时间具有语音信号,则设置当前帧的连续语音信号为语音信号。8.根据权利要求4所述的方法,其特征在于,所述逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号的步骤包括:将所述连续语音信号输入预置的神经网络模型,逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号。9.根据权利要求4所述的方法,其特征在于,在确定每一帧连续语音信号对应的指向性标志信号之前,还包括:确定非语音指示片段的时长,所述非语音指示片段为由连续的表示当前帧的时间具有非语音信号的指向性标志信号构成;将时长小于第二预设阈值的非语音指示片段中的每一帧的指向性标志信号,设置为表示当前帧的时间具有语音信号。10.一种语音信号识别方法,其特征在于,包括:获取车内的空间音频信号;根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号;针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号。11.根据权利要求10所述的方法,其特征在于,所述空间音频信号包括:多个麦克风采集的多路原始音频信号;所述根据所述空间音频信号,从所述空间音频信号中分离出针对多个声源方向的连续语音信号以及相应的指向性标志信号的步骤包括:根据所述多路原始音频信号,估计信号到达方向;根据所述信号到达方向以及预设声源方向,生成针对预设声源方向的指向性标志信号;对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号。12.根据权利要求11所述的方法,其特征在于,所述对所述多路原始音频信号进行波束形成处理,生成针对声源方向的连续语音信号的步骤包括:确定所述多路原始音频信号中两两信号之间的时延差;根据所述两两信号之间的时延差,对所述多路原始音频信号进行时延补偿;对时延补偿后的所述多路原始音频信号进行加权求和,生成针对声源方向的连续语音信号。13.根据权利要求10所述的方法,其特征在于,所述针对多个声源方向中的一个声源方向,将针对该声源方向的连续语音信号与相应的指向性标志信号进行组合,生成针对该声源方向的语音激活检测信号的步骤包括:确定每一帧连续语音信号对应的指向性标志信号;逐帧判断所述连续语音信号的每一帧为语音信号或非语音信号;根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或非语音信号;将每一帧连续语音信号中被设置为语音信号的信号,确定为语音激活检测信号。14.根据权利要求13所述的方法,其特征在于,在根据对每一帧连续语音信号的判断结果,以及对应的指向性标志信号,设置每一帧连续语音信号为语音信号或...

【专利技术属性】
技术研发人员:刘勇
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛,KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1