一种随机数字口令相关的说话人识别方法及装置制造方法及图纸

技术编号：21688501 阅读：32 留言：0更新日期：2019-07-24 15:19

本发明专利技术涉及随机数字口令相关的说话人识别方法及装置，该方法包括，获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量；将注册说话人模型中对应数字的总变化因子向量与测试说话人语音中每个数字片段的总变化因子向量，进行余弦打分，根据语音识别的置信度对打分进行加权求和，获得判决分数，识别测试说话人的语音是否为注册说话人的语音。本发明专利技术对注册和测试中对应数字的语音片段进行匹配打分，可在随机数字口令长度较短如5个随机数字的情况下，仍有很高的识别性能，与常用的高斯混合模型通用背景模型打分方法对比，本发明专利技术提出的随机数字口令的说话人识别方法的性能有相对25％‑30％的提升。

A Speaker Recognition Method and Device Related to Random Number Password

全部详细技术资料下载

【技术实现步骤摘要】
一种随机数字口令相关的说话人识别方法及装置
本专利技术涉及语音识别领域，特别涉及一种随机数字口令相关的说话人识别方法及装置。
技术介绍
近年来，随着模式识别和人工智能的发展，说话人识别技术近年来取得了巨大的发展并有着越来越广泛的应用，成为了语音识别技术研究热点之一。随着互联网及移动设备的普及，身份验证的重要性尤为突出。在这一背景下，声纹密码的使用可以在原有身份验证技术的基础上增加账户访问的安全性和可靠性。声纹识别即说话人识别，在实际应用中，由于随机数字串的简单通用，成为了说话人识别技术在密码口令上应用的主流趋势。但随机数字口令的协同发音问题以及为提升用户体验对数字串长度的限制，使得实际应用中基于随机数字口令的说话人识别系统表现不佳。当前，如何提升较短随机数字口令情况下的说话人识别效果，已经成为了该领域的研究重点。
技术实现思路
本专利技术的目的在于，克服现有技术中基于随机数字口令的说话人识别系统表现不佳、较短随机数字口令情况下的说话人识别效果有待提高的问题，从而提供一种随机数字口令相关的说话人识别方法及装置。为了解决上述技术问题，第一方面，本专利技术实施例提供一种随机数字口令的说话人识别方法，包括：获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量；将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量，进行余弦打分，根据语音识别的置信度对所述打分进行加权求和，获得判决分数；根据所述判决分数，识别所述测试说话人的语音是否为所述注册说话人的语音。作为上述方法的一种改进，所述获得判决...

【技术保护点】
1.一种随机数字口令的说话人识别方法，其特征在于，包括：获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量；将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量，进行余弦打分，根据语音识别的置信度对所述打分进行加权求和，获得判决分数；根据所述判决分数，识别所述测试说话人的语音是否为所述注册说话人的语音。

【技术特征摘要】
1.一种随机数字口令的说话人识别方法，其特征在于，包括：获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量；将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量，进行余弦打分，根据语音识别的置信度对所述打分进行加权求和，获得判决分数；根据所述判决分数，识别所述测试说话人的语音是否为所述注册说话人的语音。2.如权利要求1所述的识别方法，其特征在于，所述获得判决分数的计算过程如公式(2)：其中se，t为判决分数，M＝9，ωe，i为注册说话人模型中对应数字i的总变化因子向量，ωt，i为测试说话人语音中数字i的总变化因子向量；当数字i未出现在测试说话人语音中，置ωt，i为零向量；αt，i为测试说话人语音中识别为数字i的特征片段所对应的识别置信度，置信度的和N由公式(4)求得：N＝∑αt，i(4)若数字i未出现在测试语音中，则式中αt，i＝0。3.如权利要求1所述的识别方法，其特征在于，获取总变化因子向量，包括；将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段；根据通用背景模型及总变化矩阵对所述数字特征片段进行处理，得到每个数字或对应数字特征片段的总变化因子向量。4.如权利要求3所述的识别方法，其特征在于，将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段，包括：提取测试说话人或注册说话人的数字串朗读语音声学谱特征；根据连续隐马尔可夫模型的语音识别，对所述声学谱特征进行识别，得到对应的数字串文本标签，以及对应的数字和静音段的起始、结束时间；将所述声学谱特征数据根据所述得到的对应起始、结束标签切分成每个数字对应的特征片段，并去除静音片段。5.如权利要求3所述的识别方法，其特征在于，所述通用背景模型及总变化矩阵通过以下训练步骤获得：对模型训练所用的数字串朗读数据进行处理，得到单个数字特征片段的集合；将所述集合，采用最大期望算法训练得到一个通用背景模型；根据所述通用背景模型提取所述单个数字特征片段的Baum-Welch统计量，用所述Baum-Welch统计量训练总变换因子分析的模型，公式为：Mj＝m+Tωj(1)其中Mj为第j个数字的高斯均值超向量，m为通用背景模型的高斯均值超向量，T为总变化矩阵，ωj为第j个数字的隐藏因子；使用最大期望算法进行训练，迭代更新后，得到T为总变化矩阵。6.一种随机数字口令的说话人识别装置，其特征...

【专利技术属性】
技术研发人员：周若华，姚升余，颜永红，
申请(专利权)人：中国科学院声学研究所，北京中科信利技术有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人