一种随机数字口令相关的说话人识别方法及装置制造方法及图纸

技术编号:21688501 阅读:32 留言:0更新日期:2019-07-24 15:19
本发明专利技术涉及随机数字口令相关的说话人识别方法及装置,该方法包括,获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;将注册说话人模型中对应数字的总变化因子向量与测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对打分进行加权求和,获得判决分数,识别测试说话人的语音是否为注册说话人的语音。本发明专利技术对注册和测试中对应数字的语音片段进行匹配打分,可在随机数字口令长度较短如5个随机数字的情况下,仍有很高的识别性能,与常用的高斯混合模型通用背景模型打分方法对比,本发明专利技术提出的随机数字口令的说话人识别方法的性能有相对25%‑30%的提升。

A Speaker Recognition Method and Device Related to Random Number Password

【技术实现步骤摘要】
一种随机数字口令相关的说话人识别方法及装置
本专利技术涉及语音识别领域,特别涉及一种随机数字口令相关的说话人识别方法及装置。
技术介绍
近年来,随着模式识别和人工智能的发展,说话人识别技术近年来取得了巨大的发展并有着越来越广泛的应用,成为了语音识别技术研究热点之一。随着互联网及移动设备的普及,身份验证的重要性尤为突出。在这一背景下,声纹密码的使用可以在原有身份验证技术的基础上增加账户访问的安全性和可靠性。声纹识别即说话人识别,在实际应用中,由于随机数字串的简单通用,成为了说话人识别技术在密码口令上应用的主流趋势。但随机数字口令的协同发音问题以及为提升用户体验对数字串长度的限制,使得实际应用中基于随机数字口令的说话人识别系统表现不佳。当前,如何提升较短随机数字口令情况下的说话人识别效果,已经成为了该领域的研究重点。
技术实现思路
本专利技术的目的在于,克服现有技术中基于随机数字口令的说话人识别系统表现不佳、较短随机数字口令情况下的说话人识别效果有待提高的问题,从而提供一种随机数字口令相关的说话人识别方法及装置。为了解决上述技术问题,第一方面,本专利技术实施例提供一种随机数字口令的说话人识别方法,包括:获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对所述打分进行加权求和,获得判决分数;根据所述判决分数,识别所述测试说话人的语音是否为所述注册说话人的语音。作为上述方法的一种改进,所述获得判决分数的计算过程如公式(2):其中se,t为判决分数,M=9,ωe,i为注册说话人模型中对应数字i的总变化因子向量,ωt,i为测试说话人语音中数字i的总变化因子向量;当数字i未出现在测试说话人语音中,置ωt,i为零向量;αt,i为测试说话人语音中识别为数字i的特征片段所对应的识别置信度,置信度的和N由公式(4)求得:N=∑αt,i(4)若数字i未出现在测试语音中,则式中αt,i=0。作为上述方法的又一种改进,获取总变化因子向量,包括;将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段;根据通用背景模型及总变化矩阵对所述数字特征片段进行处理,得到每个数字或对应数字特征片段的总变化因子向量。作为上述方法的再一种改进,将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段,包括:提取测试说话人或注册说话人的数字串朗读语音声学谱特征;根据连续隐马尔可夫模型的语音识别,对所述声学谱特征进行识别,得到对应的数字串文本标签,以及对应的数字和静音段的起始、结束时间;将所述声学谱特征数据根据所述得到的对应起始、结束标签切分成每个数字对应的特征片段,并去除静音片段。作为上述方法的还一种改进,所述通用背景模型及总变化矩阵通过以下训练步骤获得:对模型训练所用的数字串朗读数据进行处理,得到单个数字特征片段的集合;将所述集合,采用最大期望算法训练得到一个通用背景模型;根据所述通用背景模型提取所述单个数字特征片段的Baum-Welch统计量,用所述Baum-Welch统计量训练总变换因子分析的模型,公式为:Mj=m+Tωj(1)其中Mj为第j个数字的高斯均值超向量,m为通用背景模型的高斯均值超向量,T为总变化矩阵,ωj为第j个数字的隐藏因子;使用最大期望算法进行训练,迭代更新后,得到T为总变化矩阵。第二方面,本专利技术实施例提供一种随机数字口令的说话人识别装置,包括:获取模块,用于获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;计算模块,用于将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对所述打分进行加权求和,获得判决分数;识别模块,用于根据所述判决分数,识别所述测试说话人的语音是否为所述注册说话人的语音。作为上述装置的一种改进,所述计算模块中获得判决分数的计算过程如公式(2):其中se,t为判决分数,M=9,ωe,i为注册说话人模型中对应数字i的总变化因子向量,ωt,i为测试说话人语音中数字i的总变化因子向量;当数字i未出现在测试说话人语音中,置ωt,i为零向量;αt,i为测试说话人语音中识别为数字i的特征片段所对应的识别置信度,置信度的和N由公式(4)求得:N=∑αt,i(4)若数字i未出现在测试语音中,则式中αt,i=0。作为上述装置的又一种改进,所述获取模块,包括:处理子模块,用于将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段;获取子模块,用于根据通用背景模型及总变化矩阵对所述数字特征片段进行处理,得到每个数字或对应数字特征片段的总变化因子向量。作为上述装置的再一种改进,所述处理子模块包括:提取子单元,用于提取测试说话人或注册说话人的数字串朗读语音声学谱特征;识别子单元,用于根据连续隐马尔可夫模型的语音识别,对所述声学谱特征进行识别,得到对应的数字串文本标签,以及对应的数字和静音段的起始、结束时间;切分子单元,用于将所述声学谱特征数据根据所述得到的对应起始、结束标签切分成每个数字对应的特征片段,并去除静音片段。作为上述装置的还一种改进,所述获取子模块中通用背景模型及总变化矩阵通过以下训练步骤获得:对模型训练所用的数字串朗读数据进行处理,得到单个数字特征片段的集合;将所述集合,采用最大期望算法训练得到一个通用背景模型;根据所述通用背景模型提取所述单个数字特征片段的Baum-Welch统计量,用所述Baum-Welch统计量训练总变换因子分析的模型,公式为:Mj=m+Tωj(1)其中Mj为第j个数字的高斯均值超向量,m为通用背景模型的高斯均值超向量,T为总变化矩阵,ωj为第j个数字的隐藏因子;使用最大期望算法进行训练,迭代更新后,得到T为总变化矩阵。本专利技术的优点在于,本专利技术的一种随机数字口令相关的说话人识别方法及装置,针对现有技术中基于随机数字口令的说话人识别系统表现不佳、较短随机数字口令情况下的说话人识别效果有待提高的问题,本专利技术对注册和测试中对应数字的语音片段进行匹配打分,可在随机数字口令长度较短如5个随机数字的情况下,仍有很高的识别性能。在测试的阶段,对于提取好的注册语音和测试语音中每个数字的总变化因子向量,利用它们对应的文本信息,匹配从注册和测试语音中得到的相同数字的总变化因子向量,计算它们的余弦距离作为得分。最终使用语音识别过程中的置信度来对这些数字得分进行加权求和,并得到判决得分,根据判决分数,识别测试说话人的语音是否为注册说话人的语音。本专利技术提供的识别方法与常用的高斯混合模型通用背景模型打分方法对比,本专利技术提出的随机数字口令的说话人识别方法的性能有相对25%-30%的提升。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明图1为本专利技术实施例提供的随机数字口令的说话人识别方法的流程图;图本文档来自技高网...

【技术保护点】
1.一种随机数字口令的说话人识别方法,其特征在于,包括:获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对所述打分进行加权求和,获得判决分数;根据所述判决分数,识别所述测试说话人的语音是否为所述注册说话人的语音。

【技术特征摘要】
1.一种随机数字口令的说话人识别方法,其特征在于,包括:获取注册说话人模型中对应数字的总变化因子向量和测试说话人语音中每个数字片段的总变化因子向量;将所述注册说话人模型中对应数字的总变化因子向量与所述测试说话人语音中每个数字片段的总变化因子向量,进行余弦打分,根据语音识别的置信度对所述打分进行加权求和,获得判决分数;根据所述判决分数,识别所述测试说话人的语音是否为所述注册说话人的语音。2.如权利要求1所述的识别方法,其特征在于,所述获得判决分数的计算过程如公式(2):其中se,t为判决分数,M=9,ωe,i为注册说话人模型中对应数字i的总变化因子向量,ωt,i为测试说话人语音中数字i的总变化因子向量;当数字i未出现在测试说话人语音中,置ωt,i为零向量;αt,i为测试说话人语音中识别为数字i的特征片段所对应的识别置信度,置信度的和N由公式(4)求得:N=∑αt,i(4)若数字i未出现在测试语音中,则式中αt,i=0。3.如权利要求1所述的识别方法,其特征在于,获取总变化因子向量,包括;将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段;根据通用背景模型及总变化矩阵对所述数字特征片段进行处理,得到每个数字或对应数字特征片段的总变化因子向量。4.如权利要求3所述的识别方法,其特征在于,将测试说话人或注册说话人的语音通过预处理阶段处理成数字特征片段,包括:提取测试说话人或注册说话人的数字串朗读语音声学谱特征;根据连续隐马尔可夫模型的语音识别,对所述声学谱特征进行识别,得到对应的数字串文本标签,以及对应的数字和静音段的起始、结束时间;将所述声学谱特征数据根据所述得到的对应起始、结束标签切分成每个数字对应的特征片段,并去除静音片段。5.如权利要求3所述的识别方法,其特征在于,所述通用背景模型及总变化矩阵通过以下训练步骤获得:对模型训练所用的数字串朗读数据进行处理,得到单个数字特征片段的集合;将所述集合,采用最大期望算法训练得到一个通用背景模型;根据所述通用背景模型提取所述单个数字特征片段的Baum-Welch统计量,用所述Baum-Welch统计量训练总变换因子分析的模型,公式为:Mj=m+Tωj(1)其中Mj为第j个数字的高斯均值超向量,m为通用背景模型的高斯均值超向量,T为总变化矩阵,ωj为第j个数字的隐藏因子;使用最大期望算法进行训练,迭代更新后,得到T为总变化矩阵。6.一种随机数字口令的说话人识别装置,其特征...

【专利技术属性】
技术研发人员:周若华姚升余颜永红
申请(专利权)人:中国科学院声学研究所北京中科信利技术有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1