声纹识别的测试方法、装置、存储介质及电子设备制造方法及图纸

技术编号:32223664 阅读:14 留言:0更新日期:2022-02-09 17:28
本申请公开了一种声纹识别的测试方法、装置、存储介质及电子设备,涉及人工智能技术领域,该方法包括:获取目标视频流中的图像帧,其中,图像帧中包括文本信息;提取图像帧中的文本信息;采用文本信息在预设语音库中进行匹配,得到文本信息对应的语音声纹信息;采用语音声纹信息对声纹识别系统进行测试。通过本申请,解决了相关技术中声纹识别测试效率较低的问题。问题。问题。

【技术实现步骤摘要】
声纹识别的测试方法、装置、存储介质及电子设备


[0001]本申请涉及人工智能
,具体而言,涉及一种声纹识别的测试方法、装置、存储介质及电子设备。

技术介绍

[0002]在生物识别
中,声纹识别技术因其独有的便捷性、经济性和准确性,逐渐成为人们日常生活和工作中重要且普及的认证方式,声纹识别的安全测试也成为研究热点。其中,声纹录音重放攻击是一种典型的测试方法,通过提前录制用户音频,在声纹识别过程中播放音频进行测试。但目前常见的声纹识别往往采用随机内容声纹技术,其原理是在声纹识别过程中提示用户必须朗读随机显示的数字或文字,如果朗读的内容不一致则识别不通过,这种方式使提前录好的音频失效。因此,在测试过程中,需要测试人员人工识别待朗读内容,并在短时间内合成录音,手工操作繁琐,测试成本较高。
[0003]针对相关技术中声纹识别测试效率较低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0004]本申请的主要目的在于提供一种声纹识别的测试方法、装置、存储介质及电子设备,以解决相关技术中声纹识别测试效率较低的问题。
[0005]为了实现上述目的,根据本申请的一个方面,提供了一种声纹识别的测试方法。该方法包括:获取目标视频流中的图像帧,其中,图像帧中包括文本信息;提取图像帧中的文本信息;采用文本信息在预设语音库中进行匹配,得到文本信息对应的语音声纹信息;采用语音声纹信息对声纹识别系统进行测试。
[0006]进一步地,在获取目标视频流中的图像帧之前,该方法还包括:通过目标设备获取初始视频流;将初始视频流中进行编码处理,得到处理后的视频流;通过套接字将处理后的视频流进行传递。
[0007]进一步地,在提取图像帧中的文本信息之前,该方法还包括:将图像帧中的文本信息按照预设处理方式进行处理,得到处理后的图像帧,其中,预设处理方式至少包括:图像二值化处理、图像降噪处理以及字符切分处理。
[0008]进一步地,提取图像帧中的文本信息包括:通过卷积神经网络对处理后的图像帧进行特征提取,得到图像帧的特征信息;将特征信息以及目标模型的权重信息输入至卷积循环神经网络中并进行编码处理,得到文本信息中的字符集的概率;根据字符集的概率确定图像帧中的文本信息。
[0009]进一步地,在将特征信息以及目标模型的权重信息输入至目标卷积循环神经网络中并进行编码处理之前,该方法还包括:获取循环神经网络的神经元的状态信息以及目标模型上一时刻的输出结果;根据神经元的状态信息以及的输出结果确定目标模型的权重信息。
[0010]进一步地,采用文本信息在预设语音库中进行匹配,得到文本信息对应的语音声
纹信息包括:对预设语音库中的语音音频进行降噪处理,得到处理后的语音音频;将处理后的语音音频进行分割处理,得到分割后的音频信息;在预设时间内判断分割后的音频信息中是否存在数字或者文字音频片段;若分割后的音频信息中存在数字或者存在文字音频片段,将数字或者文字音频片段与目标声纹内容进行匹配,得到文本信息对应的语音声纹信息。
[0011]进一步地,在采用语音声纹信息对声纹识别系统进行测试之后,该方法还包括:获取测试结果,从测试结果中获取结果显示图片;将结果显示图片通过目标检测算法进行验证,得到验证后的图片;根据验证后的图片确定声纹识别的测试结果,其中,声纹识别的测试结果至少包括声纹识别的测试成功、声纹识别的测试失败。
[0012]为了实现上述目的,根据本申请的另一方面,提供了一种声纹识别的测试装置。该装置包括:第一获取单元,用于获取目标视频流中的图像帧,其中,图像帧中包括文本信息;第一提取单元,用于提取图像帧中的文本信息;第一匹配单元,用于采用文本信息在预设语音库中进行匹配,得到文本信息对应的语音声纹信息;第一测试单元,用于采用语音声纹信息对声纹识别系统进行测试。
[0013]进一步地,该装置包括:第二获取单元,用于在获取目标视频流中的图像帧之前,通过目标设备获取初始视频流;第一处理单元,用于将初始视频流中进行编码处理,得到处理后的视频流;第一传递单元,用于通过套接字将处理后的视频流进行传递。
[0014]进一步地,该装置还包括:第二处理单元,用于在提取图像帧中的文本信息之前,将图像帧中的文本信息按照预设处理方式进行处理,得到处理后的图像帧,其中,预设处理方式至少包括:图像二值化处理、图像降噪处理以及字符切分处理。
[0015]进一步地,第一提取单元包括:第一提取模块,用于通过卷积神经网络对处理后的图像帧进行特征提取,得到图像帧的特征信息;第一处理模块,用于将特征信息以及目标模型的权重信息输入至卷积循环神经网络中并进行编码处理,得到文本信息中的字符集的概率;第一确定模块,用于根据字符集的概率确定图像帧中的文本信息。
[0016]进一步地,该装置还包括:第三获取单元,用于在将特征信息以及目标模型的权重信息输入至目标卷积循环神经网络中并进行编码处理之前,获取循环神经网络的神经元的状态信息以及目标模型上一时刻的输出结果;第一确定单元,用于根据神经元的状态信息以及的输出结果确定目标模型的权重信息。
[0017]进一步地,第一匹配单元包括:第二处理模块,用于对预设语音库中的语音音频进行降噪处理,得到处理后的语音音频;第三处理模块,用于将处理后的语音音频进行分割处理,得到分割后的音频信息;第一判断模块,用于在预设时间内判断分割后的音频信息中是否存在数字或者文字音频片段;第一匹配模块,用于若分割后的音频信息中存在数字或者存在文字音频片段,将数字或者文字音频片段与目标声纹内容进行匹配,得到文本信息对应的语音声纹信息。
[0018]进一步地,该装置还包括:第四获取单元,用于在采用语音声纹信息对声纹识别系统进行测试之后,获取测试结果,从测试结果中获取结果显示图片;第一验证单元,用于将结果显示图片通过目标检测算法进行验证,得到验证后的图片;第二确定单元,用于根据验证后的图片确定声纹识别的测试结果,其中,声纹识别的测试结果至少包括声纹识别的测试成功、声纹识别的测试失败。
[0019]根据本申请实施例的另一方面,还提供了一种电子设备,包括一个或多个处理器和存储器,该计算机程序/指令被处理器执行时执行上述任意一项的方法。
[0020]根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,其上存储有计算机程序/指令,该计算机程序/指令被处理器执行时执行上述任意一项的方法。
[0021]通过本申请,采用以下步骤:获取目标视频流中的图像帧,其中,图像帧中包括文本信息;提取图像帧中的文本信息;采用文本信息在预设语音库中进行匹配,得到文本信息对应的语音声纹信息;采用语音声纹信息对声纹识别系统进行测试。解决了相关技术中声纹识别测试效率较低的问题,通过采用文本信息在预设语音库中进行匹配,进而自动生成文本信息对应的语音声纹信息,进而达到了提高声纹识别测试效率的效果。
附图说明
[0022]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种声纹识别的测试方法,其特征在于,包括:获取目标视频流中的图像帧,其中,所述图像帧中包括文本信息;提取所述图像帧中的文本信息;采用所述文本信息在预设语音库中进行匹配,得到所述文本信息对应的语音声纹信息;采用所述语音声纹信息对声纹识别系统进行测试。2.根据权利要求1所述的方法,其特征在于,在获取目标视频流中的图像帧之前,所述方法还包括:通过目标设备获取初始视频流;将所述初始视频流中进行编码处理,得到处理后的视频流;通过套接字将所述处理后的视频流进行传递。3.根据权利要求1所述的方法,其特征在于,在提取所述图像帧中的文本信息之前,所述方法还包括:将所述图像帧中的文本信息按照预设处理方式进行处理,得到处理后的图像帧,其中,所述预设处理方式至少包括:图像二值化处理、图像降噪处理以及字符切分处理。4.根据权利要求3所述的方法,其特征在于,提取所述图像帧中的文本信息包括:通过卷积神经网络对所述处理后的图像帧进行特征提取,得到图像帧的特征信息;将所述特征信息以及目标模型的权重信息输入至卷积循环神经网络中并进行编码处理,得到所述文本信息中的字符集的概率;根据所述字符集的概率确定所述图像帧中的文本信息。5.根据权利要求4所述的方法,其特征在于,在将所述特征信息以及目标模型的权重信息输入至目标卷积循环神经网络中并进行编码处理之前,所述方法还包括:获取所述循环神经网络的神经元的状态信息以及所述目标模型上一时刻的输出结果;根据所述神经元的状态信息以及所述的输出结果确定所述目标模型的权重信息。6.根据权利要求1所述的方法,其特征在于,采用所述文本信息在预设语音库中进行匹配,得到所述文本信息对应的语音声纹信...

【专利技术属性】
技术研发人员:程佩哲汤旭东吕博良旷亚和
申请(专利权)人:中国工商银行股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1