语音信号处理方法、装置及车机系统制造方法及图纸

技术编号:39055311 阅读:15 留言:0更新日期:2023-10-12 19:48
本发明专利技术公开一种语音信号处理方法,应用于车机系统,其包括:获取车机系统所处的车载模式,并根据车机系统所处的车载模式通过前端信号处理引擎获取目标语音信号,其中,目标语音信号包括用于语音识别的第一目标语音信号和用于语音活动检测的第二目标语音信号;对第二目标语音信号进行语音活动检测,同时将第一目标语音信号缓存;根据对第二目标语音信号的语音活动检测结果和缓存的第一目标语音信号,确定出用于语音识别的最终语音信号输出。本发明专利技术实施例的方法通过基于车载模式的目标语音信号筛选和基于vad引擎的语音信号处理,实现了对非目标音区的音频信号的双重抑制,提高了对非目标音区的音频的抑制效果和语音唤醒识别的准确率。的准确率。的准确率。

【技术实现步骤摘要】
语音信号处理方法、装置及车机系统


[0001]本专利技术涉及智能语音
,尤其涉及一种语音信号处理方法、语音信号处理装置及包含其的车机系统、电子设备和存储介质。

技术介绍

[0002]为了提升智能座舱的人机交互体验,保障汽车驾驶的安全性,目前的车机系统均是通过双音区定向拾音的方式来获取用户语音指令的。双音区定向拾音的方式主要是通过将座舱分为左侧和右侧,即主驾和副驾,两个区域,并通过在两个区域分别设置的麦克风进行定向拾音,由此以实现对特定方向的声音及音频的锁定和对其他区域的声音的抑制,提升语音识别和唤醒的成功率。示例性地,在这种双音区定向拾音的方式下,如果通过主驾所在区域的麦克风拾取到“打开车窗”的语音指令,就会响应该语音指令将主驾的车窗打开,而如果通过副驾所在区域的麦克风拾取到“打开车窗”的语音指令,则会响应该语音指令将副驾的车窗打开。但这种双音区定向拾音的方式由于仅将座舱分为左右侧,因而对于主驾后排声音和副驾后排声音是无法进行准确区分的,这样就容易导致语音指令的误识别,影响用户体验和驾驶安全。此外,这种双音区定向拾音的方式,过于依赖信号处理算法的鲁棒性,当信号处理算法对于非目标音区抑制过多时,对目标音区的人声同样会有一定程度的抑制效果,无法达到有效平衡。目前通常的方案都是通过算法调参重训算法资源,来尽可能实现对非目标音区和目标音区的抑制效果的平衡。但是算法调整周期很长,并且无法有效解决声音残留过多的问题,如异侧(即非目标音区)声音过大导致的声音残留通常会对指令下达侧(即目标音区)的声音造成干扰,引起误识别,从而进一步影响用户体验和驾驶安全。

技术实现思路

[0003]本专利技术实施例提供一种双重抑制的语音信号处理方法,以解决现有技术中的语音信号处理方法容易对异侧的声音残留造成误识别、且对非目标音区的声音抑制效果与目标音区的唤醒识别准确率无法达到有效平衡的问题。
[0004]第一方面,本专利技术实施例提供一种语音信号处理方法,应用于车机系统,其包括:
[0005]获取所述车机系统所处的车载模式,并根据车机系统所处的车载模式通过前端信号处理引擎获取目标语音信号,其中,所述目标语音信号包括用于语音识别的第一目标语音信号和用于语音活动检测的第二目标语音信号;
[0006]对第二目标语音信号进行语音活动检测,同时将第一目标语音信号缓存;
[0007]根据对第二目标语音信号的语音活动检测结果和缓存的第一目标语音信号,确定出用于语音识别的最终语音信号输出。
[0008]第二方面,本专利技术实施例提供一种语音信号处理装置,其包括:
[0009]输入信号确定模块,用于获取所述车机系统所处的车载模式,并根据车机系统所处的车载模式通过前端信号处理引擎获取目标语音信号,其中,所述目标语音信号包括用于语音识别的第一目标语音信号和用于语音活动检测的第二目标语音信号;
[0010]信号处理模块,用于对第二目标语音信号进行语音活动检测,同时将第一目标语音信号缓存;
[0011]信号抛出模块,用于根据对第二目标语音信号的语音活动检测结果和缓存的第一目标语音信号,确定出用于语音识别的最终语音信号输出。
[0012]第三方面,本专利技术实施例提供一种车机系统,其包括上述第二方面所述的语音信号处理装置。
[0013]第四方面,本专利技术实施例提供一种电子设备,包括:
[0014]至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述第一方面的语音信号处理方法的步骤。
[0015]第五方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述第一方面的语音信号处理方法的步骤。
[0016]本专利技术实施例的有益效果在于:本专利技术实施例提供的方法基于车载模式选取出目标音区的目标语音信号,实现对音频信号的第一层抑制,且继而通过语音活动检测对目标语音信号进行第二层抑制处理,由此,通过双重抑制处理来降低非目标音区的噪声对目标音区音频的干扰,避免目标音区的误识别,提高语音识别唤醒成功率和准确率,进而保证用户体验和驾驶安全;此外,本专利技术实施例还基于双路音频的目标语音信号进行语音活动检测的抑制处理,使得用于语音活动检测的抑制音频与用于唤醒识别的音频相互解耦,避免非目标音区的抑制处理对目标音区的唤醒识别的影响,使得对非目标音区的抑制效果和对目标音区的唤醒识别效果能够达到最佳平衡,因而进一步保证了语音唤醒识别的成功率和准确率。
附图说明
[0017]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0018]图1为本专利技术一实施方式的语音信号处理方法的流程图;
[0019]图2为本专利技术一实施方式的根据车机系统所处的车载模式获取目标语音信号的方法流程图;
[0020]图3为本专利技术另一实施方式的根据车机系统所处的车载模式获取目标语音信号的方法流程图;
[0021]图4为本专利技术一实施方式的图1中的步骤S13具体实现方法的流程图;
[0022]图5为本专利技术一实施方式的语音信号处理装置的原理框图;
[0023]图6为本专利技术一实施方式的汽车车机系统的原理框图;
[0024]图7为本专利技术的电子设备的一实施例的结构示意图。
具体实施方式
[0025]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是
本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0026]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。
[0027]本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。
[0028]在本专利技术中,“模块”、“装置”、“系统”等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.语音信号处理方法,应用于车机系统,其特征在于,包括:获取所述车机系统所处的车载模式,并根据车机系统所处的车载模式通过前端信号处理引擎获取目标语音信号,其中,所述目标语音信号包括用于语音识别的第一目标语音信号和用于语音活动检测的第二目标语音信号;根据第二目标语音信号进行语音活动检测,同时将第一目标语音信号缓存;根据对第二目标语音信号的语音活动检测结果和缓存的第一目标语音信号,确定出用于语音识别的最终语音信号输出。2.根据权利要求1所述的方法,其特征在于,所述车载模式包括定位模式,其中,在车载模式为定位模式时,通过前端信号处理引擎获取目标语音信号包括:根据唤醒定位信息,在唤醒定位信息为主驾时,通过前端信号处理引擎获取第一主驾识别音频作为第一目标语音信号,并获取主驾vad检测音频作为第二目标语音信号;在唤醒定位信息为副驾时,通过前端信号处理引擎获取第一副驾识别音频作为第一目标语音信号,并获取副驾vad检测音频作为第二目标语音信号。3.根据权利要求2所述的方法,其特征在于,所述车载模式还包括全车模式,在车载模式为全车模式时,通过前端信号处理引擎获取目标语音信号包括:通过前端信号处理引擎获取第二主驾识别音频和第二副驾识别音频,并对第二主驾识别音频和第二副驾识别音频进行合并,得到合并音频信号;将合并音频信号作为第一目标语音信号,同时复制所述合并音频信号以形成第二目标语音信号。4.根据权利要求2所述的方法,其特征在于,所述车载模式还包括主驾模式,在车载模式为主驾模式时,通过前端信号处理引擎获取目标语音信号包括:通过前端信号处理引擎获取第一主驾识别音频作为第一目标语音信号,并获取主驾vad检测音频作为第二目标语音信号。5.根据权利要求1所述的方法,其特征在于,所述根据对第二目标语音信号的语音活动检测结果和缓存的第一目标语音信号,确定出用于语音识别的最终语音信号输出,包括:在语音活动检测结果为第二目标语音信号触发了VAD.BEGIN时,从缓存中获取与...

【专利技术属性】
技术研发人员:吴化邓建凯邵雅婷
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1