多音频识别方法、装置、设备及可读存储介质制造方法及图纸

技术编号:23856207 阅读:41 留言:0更新日期:2020-04-18 11:15
本发明专利技术公开了一种多音频识别方法,装置、设备及可读存储介质,所述多音频识别方法根据第一音频信号的预测用户特征确定目标用户声纹信息,实现了对匹配声纹的预分类,缩小了匹配过程中对照声纹信息的范围,减少了匹配过程所需的时间;通过输出与目标用户声纹信息的匹配结果,使得无需等待其他音频的匹配结果,减少了等待结果的时间;通过将第二声纹信息输入预设声纹识别模型进行匹配,进一步对剩余的未知音频进行识别,最终完成对所有未知音频的识别。本发明专利技术通过缩小范围分次对多个未知音频进行识别并分别获取识别结果,提高了发声者未知的多音频的识别效率。

Multi audio recognition method, device, equipment and readable storage medium

【技术实现步骤摘要】
多音频识别方法、装置、设备及可读存储介质
本专利技术涉及声纹识别
,尤其涉及一种多音频识别方法、装置、设备及可读存储介质。
技术介绍
随着科学技术的发展,声纹识别在各领域应用越来越广泛。声纹类似于指纹,是一个人特有的信息,一个人说的不同的话,其声纹应该是一致的。声纹识别是一种利用声纹特征信息对未知用户进行身份确认的技术。在公安刑侦领域,采用声纹识别技术来对音频的发声者的身份进行确认。一般情况下往往针对单个的未知音频进行识别,可将音频直接输入经大量训练数据训练后的声纹识别模型进行匹配。但在证据收集过程中,若采集到了多个发声者未知的音频,依然将这多个音频直接输入大型的声纹识别模型,多个办案人员需等待较长时间才可一并得到多个音频的识别结果,从而导致了识别多个未知音频的效率低下的问题。上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。
技术实现思路
本专利技术的主要目的在于提供一种多音频识别方法,旨在解决识别多个未知音频的效率低下的技术问题。为实现上述目的,本专利技术提供一种多音频识别方法,所述多音频识别方法应用于多音频识别设备,所述多音频识别方法包括以下步骤:在接收到多音频识别指令时,获取基于所述多音频识别指令确定的多个第一语音信号;提取预处理后的各第一语音信号的第一声纹信息,并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征;将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果;在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果。可选地,所述将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果的步骤包括:基于所述预测身份特征,在预存的已知声纹中进行筛选,确定多组目标用户声纹信息;将所述第一声纹信息与对应的各组目标用户声纹信息同时进行匹配,获取并输出所述第一声纹信息的第一匹配结果。可选地,所述提取预处理后各第一语音信号的第一声纹信息的步骤包括:根据倒谱法提取各所述第一语音信号的基音周期参数;基于梅尔滤波器获取各所述第一语音信号的梅尔倒谱系数;将所述基音周期参数与梅尔倒谱系数结合作为所述第一声纹信息。可选地,所述提取预处理后各第一语音信号的第一声纹信息的步骤之前,还包括:对各所述第一语音信号进行加窗分帧处理,生成第一加窗语音信号;基于快速傅里叶变换对所述第一加窗语音信号进行时频分解,生成第一时频二维信号;获取所述第一时频二维信号的特征参数,并基于所述特征参数与预设语音端点检测方式将所述第一时频二维信号中的空语音段进行过滤,以完成各所述第一语音信号的预处理。可选地,所述对各所述第一语音信号进行加窗分帧处理,生成第一加窗语音信号的步骤之前,还包括:对各所述第一语音信号进行预加重处理,以增强各所述第一语音信号的高频部分。可选地,所述在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果的步骤之前,还包括:判断所述第一声纹信息与所述目标用户声纹信息的相似度是否大于预设阈值:若所述第一声纹信息与所述目标用户声纹信息的相似度大于所述预设阈值,则判定所述第一声纹信息与所述目标用户声纹信息匹配;若所述第一声纹信息与所述目标用户声纹信息的相似度不大于所述预设阈值,则判定所述第一声纹信息与所述目标用户声纹信息不匹配。可选地,所述在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果的步骤之后,还包括:在接收到用户发送的识别结果确认指令时,基于所述第二匹配结果生成并显示所述第二声纹信息的识别标签,并将所述第二声纹信息对应的第一音频信号与识别标签导入预设音频库。此外,为实现上述目的,本专利技术还提供一种多音频识别装置,所述多音频识别装置包括:音频信号获取模块,用于在接收到多音频识别指令时,获取基于所述多音频识别指令确定的多个第一语音信号;声纹信息匹配模块,用于提取预处理后的各第一语音信号的第一声纹信息,并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征;声纹模型识别模块,用于将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果;识别结果获取模块,用于在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果。此外,为实现上述目的,本专利技术还提供一种多音频识别设备,所述多音频识别装置包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的多音频识别程序,所述多音频识别程序被所述处理器执行时实现如上述的视频会议切换的步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有多音频识别程序,所述多音频识别程序被处理器执行时实现如上述的多音频识别方法的步骤。本专利技术提供一种多音频识别方法、装置、设备及计算机可读存储介质。所述多音频识别方法通过在接收到多音频识别指令时,获取基于所述多音频识别指令确定的多个第一语音信号;提取预处理后的各第一语音信号的第一声纹信息,并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征;将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果;在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果。通过上述方式,本专利技术根据第一音频信号的预测用户特征确定目标用户声纹信息,缩小了匹配过程中对照声纹信息的范围,减少了匹配过程所需的时间;通过输出与目标用户声纹信息的匹配结果,使得无需等待其他音频的匹配结果,减少了等待结果的时间;通过将第二声纹信息输入预设声纹识别模型进行匹配,进一步对剩余的未知音频进行识别,最终完成对所有未知音频的识别。本专利技术通过缩小范围分次对多个未知音频进行识别并分别输出识别结果,解决了识别多个音频的效率低下的技术问题。附图说明图1是本专利技术实施例方案涉及的硬件运行环境的设备结构示意图;图2为本专利技术多音频识别方法第一实施例的流程示意图;图3为本专利技术多音频识别方法第二实施例的流程示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。如图1所示,图1是本专利技术实施例方案涉及的硬件运行环境的终端结构示意图。本专利技术实施例终端可以是PC,也可以是智能手机、平板电脑、电子书阅读器、MP3(MovingPictureExpertsGrou本文档来自技高网...

【技术保护点】
1.一种多音频识别方法,其特征在于,所述多音频识别方法包括:/n在接收到多音频识别指令时,获取基于所述多音频识别指令确定的多个第一语音信号;/n提取预处理后的各第一语音信号的第一声纹信息,并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征;/n将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果;/n在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果。/n

【技术特征摘要】
1.一种多音频识别方法,其特征在于,所述多音频识别方法包括:
在接收到多音频识别指令时,获取基于所述多音频识别指令确定的多个第一语音信号;
提取预处理后的各第一语音信号的第一声纹信息,并基于所述第一声纹信息确定各所述第一语音信号的预测身份特征;
将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果;
在所述第一匹配结果中存在与所述目标用户声纹信息不匹配的第二声纹信息时,将所述第二声纹信息输入预设声纹识别模型,获取第二匹配结果。


2.如权利要求1所述的多音频识别方法,其特征在于,所述将所述第一声纹信息与基于所述预测身份特征确定的目标用户声纹信息进行匹配,获取第一匹配结果的步骤包括:
基于所述预测身份特征,在预存的已知声纹中进行筛选,确定多组目标用户声纹信息;
将所述第一声纹信息与对应的各组目标用户声纹信息同时进行匹配,获取并输出所述第一声纹信息的第一匹配结果。


3.如权利要求1所述的多音频识别方法,其特征在于,所述提取预处理后各第一语音信号的第一声纹信息的步骤包括:
根据倒谱法提取各所述第一语音信号的基音周期参数;
基于梅尔滤波器获取各所述第一语音信号的梅尔倒谱系数;
将所述基音周期参数与梅尔倒谱系数结合作为所述第一声纹信息。


4.如权利要求1所述的多音频识别方法,其特征在于,所述提取预处理后各第一语音信号的第一声纹信息的步骤之前,还包括:
对各所述第一语音信号进行加窗分帧处理,生成第一加窗语音信号;
基于快速傅里叶变换对所述第一加窗语音信号进行时频分解,生成第一时频二维信号;
获取所述第一时频二维信号的特征参数,并基于所述特征参数与预设语音端点检测方式将所述第一时频二维信号中的空语音段进行过滤,以完成各所述第一语音信号的预处理。


5.如权利要求4所述的多音频识别方法,其特征在于,所述对各所述第一语音信号进行加窗分帧处理,生成第一加窗语音信号的步骤之前,还包括:
对各所述第一语音信号进行预加重处理,,以增强各所述第一语音信号的高频部分。


6.如权利要求1所述的多音频识别方法,其特...

【专利技术属性】
技术研发人员:彭辉黎智勇许敏强
申请(专利权)人:广州国音智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1