基于语音信号的跨模态生物特征识别方法及系统技术方案

技术编号：23213995 阅读：21 留言：0更新日期：2020-01-31 22:18

本发明专利技术提供一种语音信号的跨模态生物特征识别方法，其步骤：S1:获取包括待识别语音信号、多人的多模态生物特征信息；S2：针对每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；S3：确认多模态生物特征的声纹特征向量与其它维度的特征向量是否来自同一个人，针对获得的多个并联而成的向量对以及相应的0或1标签，并进行监督分类训练，选择损失函数评估最优的模型和参数，输出0或1确认识别结果。通过输入为语音信号，系统凭借输入的语音信号在若干个候选人的其他模态的生物特征信号中，识别出该语音信号发音人的其他模态的生物特征信息。

Cross modal biometric recognition method and system based on speech signal

全部详细技术资料下载

【技术实现步骤摘要】
基于语音信号的跨模态生物特征识别方法及系统
本专利技术本专利技术涉及一种生物特征识别方法及系统，尤其涉及一种基于语音信号的跨模态生物特征识别方法及系统。
技术介绍
随着人工智能技术在生物特征识别领域的广泛应用，人脸识别，声纹识别，指纹识别，虹膜识别，掌纹识别，步态识别等技术获得了很高的识别率以及大量的可以落地的应用场景。在现实生活中，我们对于要测试的生物特征信息，如人脸图片，语音片段，指纹，掌纹，虹膜图片等，都要预先拥有该人对应模态的注册数据。比如人脸识别，需要预先有注册人脸图片；声纹识别，需要预先有注册语音信号；指纹识别，需要有预先指纹图片；步态识别，需要有预先采集的注册步态视频。但在一些实际应用中，有时没有测试生物特征识别模态数据对应的注册数据。例如，有诈骗嫌疑人的电话录音，但没有其注册语音，所以无法开展声纹识别。但如果该诈骗嫌疑人的其他模态的生物特征信号被预先采集过，例如身份证照片。就可以利用电话录音数据来跨模态的识别哪张人脸图片时来自这个发音人的。同一个人的不同模态的生物特征数据存在较强的相关性，例如，通过听一段录音，我们得出这个人是谁，性别，大概的年龄，大概的地区方言，音调的高低，说话是否刻薄，尖细等等，这些信息都能在人脸图像中找到对应之处，因为人脸图像同样可以通过人脸识别识别出以上的信息，如身份，性别，大概的年龄，南方人/北方人，身高，性格等属性。这充分说明了，同一个人的不同模态的生物特征信号存在强关联性。因此，有必要提供一种基于语音信号的跨模态生物特征识别方法及系统。r>
技术实现思路
本专利技术的目的在于提供一种基于语音信号的跨模态生物特征识别方法及系统，通过输入的语音信号，识别出该语音信号发音人的其他模态的生物特征信息。为实现上述目的，本专利技术采用的如下技术方案：一种语音信号的跨模态生物特征识别方法，其步骤：S1:获取包括待识别语音信号、多人的多模态生物特征信息；S2：针对每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；S3：确认多模态生物特征的声纹特征向量与其它维度的特征向量是否来自同一个人，步骤2中提取的声纹特征向量和其它模态生物特征向量并联成一个向量对；若声纹特征和其它维度的特征来自于同一个人，则该向量对的输出人为标签为1，若来自不同的两个人，则标签为0。S4：针对获得的多个并联而成的向量对以及相应的0或1标签，并进行监督分类训练，选择损失函数评估最优的模型和参数，输出0或1确认识别结果。上述S2步骤中，利用神经网络模型提取所述待识别语音信号，把输入的所述待识别语音信号利用python工具包提取梅尔谱特征，搭建Resnet神经网络模型经网络模型，神经网络模型的输入是python程序工具包提取的梅尔谱向量，输出为固定维度128维的g-vector特征，g-vector特征是神经网络的输出。上述S4步骤中，通过非线性基于核函数SVM支持向量机采用神经网络进行训练与评估，基于核技巧，非线性SVM模型可以表示成如下：满足以下条件在满足条件(2)下，获得(1)式取得最小值时的参数α，上述公式中，N代表样本数量，y代表真实标签值，X代表输入值。其中，K(xi,yj)是关于原始低维特征空间x的函数为实现上述目的，本专利技术还采用的如下技术方案：一种语音信号的跨模态生物特征识别系统，其包括：获取模块，用于获取包括待识别语音在内的多人的多模态生物特征信息；提取模块，用于每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；确认模块，用于确认多模态生物特征的声纹特征向量与其它维度的特征向量是否来自同一个人，如果声纹特征和其它维度的特征来自于同一个人，则我们把这个向量对的输出人为标签为1，反之如果来自不同的两个人，则标签为0；输出模块，用于针对获得的多个并联而成的向量对以及相应的0或1标签，并进行监督分类训练，选择损失函数评估最优的模型和参数，输出0或1确认识别结果。与现有技术相比，本专利技术基于语音信号的跨模态生物特征识别方法及系统的有益效果：通过输入为语音信号，系统凭借输入的语音信号在若干个候选人的其他模态的生物特征信号中，识别出该语音信号发音人的其他模态的生物特征信息。附图说明为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：图1是本专利技术的语音信号的跨模态生物特征识别方法的流程示意图；图2是本专利技术的语音信号的跨模态生物特征识别系统的结构图。具体实施方式下面结合附图对本专利技术作详细的描述，但是应该强调的是，下面的实施方式只是示例性的，而不是为了限制本专利技术的范围及应用。图1是本专利技术的语音信号的跨模态生物特征识别方法的流程示意图。S1：获取包括待识别语音在内的多人的多模态生物特征信息；具体的，多模态生物特征包括说话人语音的声纹特征，人体面部信息的人脸特征，行走姿势的步态特征，人眼虹膜特征等等，形成多模态生物特征数据集或者通过公开的生物特征的数据集作为系统模型的训练集。S2：针对每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；利用神经网络模型提取待识别语音信号，把输入的待识别语音信号利用python工具包提取梅尔谱特征，搭建Resnet神经网络模型经网络模型，神经网络模型的输入是python程序工具包提取的梅尔谱向量，模型的输出为固定维度128维的g-vector特征，g-vector特征是神经网络的输出。具体模型结构如下表：上表中，layer是神经网络层，outputsize是对应层的输出尺码大小，3X3代表卷积核，stride代表步长，T代表时间步长，params是这层的参数是多少。网络第一层是conv1卷积层，第二层是Res1，第三层是res2，…………第六层是GSP池化层，采用的是全局统计池化方式(statistics)，第7层是全连接层(FC1)，输出也是全连接层(FC2)，Fully-connected是全连接的意思。这个模型是为说话人分类系统服务的，该模型的输出是说话人的标号，该模型的倒数第二层就得到代表人身份的g-vector特征。对于人脸特征的提取，采用DeepID网络模型，对于每一张人脸提取得到一个固定维度的向量。该DeepID模型基于卷积神经网络，包含4个卷积层(每一个都带有最大池化层)以及一个全连接层(也就是DeepID的160维特征)。通过DeepID网络模型得到反应人的身份信息的固定维度的特征向量(即把收集的多模态生物特征信息用数学的向量表示)。这里在提取特征时做一个类似于Excel的文本记录，比如小明同学，编号为1，提取的声纹特征保存名为1-本文档来自技高网...

【技术保护点】
1.一种语音信号的跨模态生物特征识别方法，其特征在于，其步骤：/nS1:获取包括待识别语音信号、多人的多模态生物特征信息；/nS2：针对每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；/nS3：确认多模态生物特征的声纹特征向量与其它维度的特征向量是否来自同一个人，步骤2中提取的声纹特征向量和其它模态生物特征向量并联成一个向量对；若声纹特征和其它维度的特征来自于同一个人，则该向量对的输出人为标签为1，若来自不同的两个人，则标签为0；/nS4：针对获得的多个并联而成的向量对以及相应的0或1标签，并进行监督分类训练，选择损失函数评估最优的模型和参数，输出0或1确认识别结果。/n

【技术特征摘要】
1.一种语音信号的跨模态生物特征识别方法，其特征在于，其步骤：
S1:获取包括待识别语音信号、多人的多模态生物特征信息；
S2：针对每一种单一模态利用神经网络模型提取特征，获取声纹特征及对应的其它模态生物特征的固定维度的向量；
S3：确认多模态生物特征的声纹特征向量与其它维度的特征向量是否来自同一个人，步骤2中提取的声纹特征向量和其它模态生物特征向量并联成一个向量对；若声纹特征和其它维度的特征来自于同一个人，则该向量对的输出人为标签为1，若来自不同的两个人，则标签为0；
S4：针对获得的多个并联而成的向量对以及相应的0或1标签，并进行监督分类训练，选择损失函数评估最优的模型和参数，输出0或1确认识别结果。

2.如权利要求1所述的语音信号的跨模态生物特征识别方法，其特征在于，上述S2步骤中，利用神经网络模型提取所述待识别语音信号，把输入的所述待识别语音信号利用python工具包提取梅尔谱特征，搭建Resnet神经网络模型经网络模型，神经网络模型的输入是python程序工具包提取的梅尔谱向量，输出为固定维度128维的g-vector特征，g-vector特征是神经网络的输出。

3.如权利要...

【专利技术属性】
技术研发人员：潘成华，
申请(专利权)人：江苏网进科技股份有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人