语音信号处理方法、装置、系统、设备和存储介质制造方法及图纸

技术编号:23485628 阅读:19 留言:0更新日期:2020-03-10 12:53
本发明专利技术公开了一种语音信号处理方法、装置、系统、设备和存储介质。该方法包括:使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段;对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。根据本发明专利技术实施例提供的语音信号处理方法,可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测,提高系统的抗干扰能力。

Speech signal processing method, device, system, equipment and storage medium

【技术实现步骤摘要】
语音信号处理方法、装置、系统、设备和存储介质
本专利技术涉及数据处理
,尤其涉及语音信号处理方法、装置、系统、设备和存储介质。
技术介绍
在语音识别系统中,正确有效的进行语音端点检测(VoiceActivityDetection,VAD)不仅可以减少计算量和缩短处理时间,而且能排除无声段的噪声干扰,提高语音识别的正确率。由于语音信号中不仅包含所需要的有用的语音端,同时也包含了无用的背景噪声段,语音端点检测可以从一段给定的语音信号中检测到语音的起始点和结束点,将语音信号分为语音端和无声段(背景噪声段)两类。现有技术中,通常使用语音能量的检测器进行语音端点检测,但是这种语音段在检测方法在嘈杂的环境下经常失效,从而造成干扰语音也作为目标语音送往语音识别引擎,造成语音识别系统抗干扰能力差。
技术实现思路
本专利技术实施例提供一种语音信号处理方法、装置、系统、设备和存储介质,可以实现在多干扰源的嘈杂环境下,提高语音识别系统的抗干扰能力。根据本专利技术实施例的一方面,提供一种语音信号处理方法,包括:在图像采集设备的可视范围内进行人脸识别,根据人脸识别结果检测目标人员是否发出语音;对接收的待识别声音信号进行声源定位,结合声源定位结果和目标人员是否发出语音的检测结果,确定目标区域中存在的语音信号;对目标区域中存在的语音信号进行语音端点检测,得到语音信号中待识别的语音片段。根据本专利技术实施例的另一方面,提供一种语音信号处理装置,包括:在图像采集设备的可视范围内进行人脸识别,根据人脸识别结果检测目标人员是否发出语音;对接收的待识别声音信号进行声源定位,结合声源定位结果和目标人员是否发出语音的检测结果,确定目标区域中存在的语音信号;对目标区域中存在的语音信号进行语音端点检测,得到语音信号中待识别的语音片段。根据本专利技术实施例的再一方面,提供一种语音信号处理设备,包括:存储器和处理器;该存储器用于存储程序;该处理器用于读取存储器中存储的可执行程序代码以执行上述的语音信号处理方法。根据本专利技术实施例的又一方面,提供了一种语音信号处理系统,包括:图像采集设备,用于获取实时图像;集音设备,用于接收音频信号;数据处理设备,用于利用实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段;对麦克风阵列接收的音频信号进行声源定位,确定音频信号中声源的方位信息;根据实时图像中目标人员发出语音的时间段和声源的方位信息,进行语音起止点分析,确定音频信号中的语音起止时间点。根据本专利技术实施例的还一方面,提供了一种计算机可读存储介质,该计算机可读存储介质中存储有指令,当指令在计算机上运行时,使得计算机执行上述各方面的语音信号处理方法。根据本专利技术实施例中的语音信号处理方法、装置、系统、设备和存储介质,可以在多干扰源的嘈杂环境下对语音信号进行语音端点检测,提高系统的抗干扰能力。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例中所需要使用的附图作简单地介绍,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是示出根据本专利技术示例性实施例的语音信号处理方法的应用场景示意图;图2是示出根据本专利技术实施例的语音信号处理系统的模块结构示意图;图3是示出根据本专利技术实施例的麦克风阵列对目标区域进行声源定位的场景示意图;图4是示出根据本专利技术一实施例的语音信号处理方法的流程图;图5是示出根据本专利技术一实施例的语音信号处理装置的结构示意图;图6是示出根据本专利技术实施例的语音信号处理系统的硬件结构示意图;图7是示出了可以实现根据本专利技术实施例的语音信号处理方法和装置的计算设备的示例性硬件架构的结构图。具体实施方式下面将详细描述本专利技术的各个方面的特征和示例性实施例,为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细描述。应理解,此处所描述的具体实施例仅被配置为解释本专利技术,并不被配置为限定本专利技术。对于本领域技术人员来说,本专利技术可以在不需要这些具体细节中的一些细节的情况下实施。下面对实施例的描述仅仅是为了通过示出本专利技术的示例来提供对本专利技术更好的理解。需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。在本专利技术实施例中,语音信号处理系统例如智能音响设备、智能语音购物机、智能语音售票机和智能语音电梯,通常需要在商场、地铁站和社交场所等存在多干扰源的嘈杂环境或多人交互的真实环境中进行语音信号采集和语音信号处理。在本专利技术下述实施例的描述中,可以使用麦克风阵列对存在多干扰源的嘈杂环境中来自空间不同方向的声音信号进行信号采样和信号处理。麦克风阵列中的每个声学传感器例如麦克风可以称为是一个阵元,每个麦克风阵列至少包括两个阵元。每个阵元可以视为一个声音采集通道,可以利用包含多个阵元的麦克风阵列获得多通道声音信号。本专利技术实施例中的麦克风阵列可以是一组位于空间不同位置的声学传感器按照一定的形状规则布置形成的阵列,是对空间传播的声音信号进行空间采样的一种装置。麦克风阵列中声学传感器被布置形成的形状排列规则,可以称为是麦克风阵列的拓扑结构,根据麦克风阵列的拓扑结构,可以将麦克风阵列分为线性麦克风阵列、平面麦克风阵列和立体麦克风阵列。作为一个示例,线性麦克风阵列可以表示麦克风阵列的阵元中心位于同一条直线上,例如水平阵列;平面麦克风阵列可以表示麦克风阵列的阵元中心分布在一个平面上,例如三角形阵列、圆形阵列、T型阵列、L型阵列、方型阵列等;立体麦克风阵列可以表示麦克风阵列的阵元中心分布在立体空间中,例如多面体阵列、球形阵列等。本专利技术实施例的语音信号处理方法对使用的麦克风阵列的具体形式不做具体限定。作为一个示例,麦克风阵列可以是水平阵列、T型阵列、L型阵列、正方体阵列。在本专利技术实施例中,语音信号处理的实际应用场景中通常包含环境噪声、人声干扰、混响以及回声等多种干扰源。其中,混响可以理解为是声音信号和该声音信号在传播时经障碍物多次反射和吸收而形成声波叠加的一种声学现象;回声也可以称为是声学回波(AcousticEcho),回声可以理解为是语音处理设备自身扬声器播放的声音在空间内经传播和反射形成的重复的声音信号,该重复的声音信号会回传给麦克风所形成的噪声干扰。上述环境环境噪声、人声干扰、混响本文档来自技高网...

【技术保护点】
1.一种语音信号处理方法,包括:/n使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段;/n对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;/n根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。/n

【技术特征摘要】
1.一种语音信号处理方法,包括:
使用图像采集设备获取实时图像,利用所述实时图像进行人脸识别,根据人脸识别结果检测目标人员发出语音的时间段;
对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息;
根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。


2.根据权利要求1所述的语音信号处理方法,其中,所述利用所述实时图像进行人脸识别,包括:
检测所述实时图像中是否存在人脸图像;
所述实时图像中存在人脸图像时,对所述人脸图像进行人脸特征点识别,确定所述人脸图像中人嘴部边缘的特征点。


3.根据权利要求1所述的语音信号处理方法,其中,所述根据人脸识别结果检测目标人员发出语音的时间段,包括:
获取所述人脸识别结果中人嘴部边缘的特征点,根据所述人嘴部边缘的特征点的特征值变化信息,确定是否存在嘴部张合动作;
将存在所述嘴部张合动作的人员作为所述目标人员;以及
将所述目标人员的嘴部张合动作在所述实时图像中的持续时间段,作为所述目标人员发出语音的时间段。


4.根据权利要求1所述的语音信号处理方法,其中,所述对麦克风阵列接收的音频信号进行声源定位,确定所述音频信号中声源的方位信息,包括:
通过所述声源定位,得到所述音频信号中的声源的方位信息,所述方位信息包括所述声源相对于所述麦克风阵列的水平角、俯仰角和距离。


5.根据权利要求1所述的语音信号处理方法,其中,所述根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点,包括:
根据所述声源的方位信息,确定所述麦克风阵列的收音范围,获取所述收音范围内的音频信号;
对所述收音范围内的音频信号进行语音检测,确定所述收音范围内的音频信号的语音存在概率;
当所述收音范围内的音频信号的语音存在概率大于预设概率阈值时,根据所述实时图像中目标人员发出语音的时间段和所述声源的方位信息,进行语音起止点分析,确定所述音频信号中的语音起止时间点。


6.根据权利要求5所述的语音信号处理方法,其中,所述对所述收音范围内的音频信号进行语音检测,确定所述收音范围内的音频信号的语音存在概率,包括:
通过所述语音检测,提取所述音频信号的声学特征;
比较所述声学特征的特征值和语音信号声学特征的系统阈值,通过比较结果确定所述音频信号中是否存在语音信号;
根据所述音频信号中是否存在语音信号,确定所述语音存在概率。


7.根据权利要求5所述的语音信号...

【专利技术属性】
技术研发人员:田彪何召卫余涛
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1