本发明专利技术涉及一种语音鉴别方法、终端设备及存储介质,该方法中包括:S1:采集多个信道对应的经过预训练的多个声纹模型;S2:采集与待检测语音相同信道的语音数据,并划分为训练集、测试集和校准集;S3:依次对S1中的各声纹模型进行模型性能判定,将满足要求的声纹模型作为鉴定模型,进入S5,当S1中所有各声纹模型均不满足要求时,进入S4;S4:提取所有cllr值小于阈值的声纹模型,并通过训练集对提取的各声纹模型进行PLDA在线训练,并对PLDA在线训练后的模型进行模型性能判定,直至找到满足要求的声纹模型作为鉴定模型后进入S5;S5:通过鉴定模型对待检测语音与样本是否属于同一人进行判别。本发明专利技术采用了分数校准和场景适应训练,使得准确率有保障。确率有保障。确率有保障。
【技术实现步骤摘要】
一种语音鉴别方法、终端设备及存储介质
[0001]本专利技术涉及语音识别领域,尤其涉及一种语音鉴别方法、终端设备及存储介质。
技术介绍
[0002]随着科技的发展和智能设备的普及,司法鉴定领域的手段也在不断地丰富,从最初的指纹、发展到DNA、到最近的图像识别,自动识别技术正逐渐取代人为识别,但是目前声纹在我国仍以人为识别为主,通过模拟观察固定字母发音的共振峰来识别是否属于同一个人,这种方式的主要原因在于目前声纹模型泛化能力不足,预先训练好的模型不足以支撑司法鉴定所需要的准确率,如果采用针对每个案件重新训练模型需要的数据量巨大,可行性几乎为零。
技术实现思路
[0003]为了解决上述问题,本专利技术提出了一种语音鉴别方法、终端设备及存储介质。
[0004]具体方案如下:
[0005]一种语音鉴别方法,包括以下步骤:
[0006]S1:采集多个信道对应的经过预训练的多个声纹模型;
[0007]S2:采集与待检测语音相同信道的语音数据,并划分为训练集、测试集和校准集;
[0008]S3:依次对S1中的各声纹模型进行模型性能判定,将满足要求的声纹模型作为鉴定模型,进入S5,当S1中所有各声纹模型均不满足要求时,进入S4;
[0009]步骤S3具体包括以下步骤:
[0010]S301:选择S1中的一个声纹模型;
[0011]S302:将测试集放入S3选择的声纹模型后,评估该声纹模型在该测试集上的性能效果,根据性能指标是否满足要求来确定该声纹模型是否可用;性能指标的要求包括Tippett图分布满足要求和校验对数似然比cllr<0.2;当Tippett图分布不满足要求时,返回S301重新选择声纹模型,直至所有声纹模型全部选择完毕后,进入S4;当Tippett图分布满足要求时,进入S303;
[0012]S303:判断是否满足cllr<0.2,如果是,将该声纹模型作为鉴定模型,进入S5;否则,通过校准集对该声纹模型进行分数校准;
[0013]S304:判断校准后的声纹模型是否满足cllr<0.2,如果是,将校准后的声纹模型作为鉴定模型,进入S5;否则,返回S3重新选择模型,直至所有声纹模型全部选择完毕后,进入S4;
[0014]S4:提取所有cllr值小于阈值的声纹模型,并通过训练集对提取的各声纹模型进行PLDA在线训练,并对PLDA在线训练后的模型进行模型性能判定,直至找到满足要求的声纹模型作为鉴定模型后进入S5;
[0015]S5:通过鉴定模型对待检测语音与样本是否属于同一人进行判别。
[0016]进一步的,步骤S1中采集的多个声纹模型均为PLDA分类器。
[0017]进一步的,步骤S2还包括对采集的语音数据中的说话人进行标注。
[0018]进一步的,步骤S5中通过鉴定模型对待检测语音与样本是否属于同一人进行判别的方法为:将待检测语音和样本输入鉴定模型后,得到鉴定模型的对数似然比,根据对数似然比在Tippett图中的位置确定待检测语音与样本是否属于同一人。
[0019]进一步的,根据对数似然比在Tippett图中的位置确定待检测语音与样本是否属于同一人的方法为:根据Tippett图得到对数似然比对应的同一个人的概率和不同人的概率,如果同一人的概率大于不同人的概率,则判定属于同一人;否则,判定属于不同人。
[0020]一种语音鉴别终端设备,包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现本专利技术实施例上述的方法的步骤。
[0021]一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现本专利技术实施例上述的方法的步骤。
[0022]本专利技术采用如上技术方案,并具有有益效果:
[0023](1)人为识别转为机器识别,排除个人因素干扰;
[0024](2)使用成本较低,无需多年经验的专业人员;
[0025](3)采用了分数校准和场景适应训练,使得准确率有保障。
附图说明
[0026]图1所示为本专利技术实施例一的流程图。
[0027]图2所示为该实施例中鉴定模型对应的Tippett图。
具体实施方式
[0028]为进一步说明各实施例,本专利技术提供有附图。这些附图为本专利技术揭露内容的一部分,其主要用以说明实施例,并可配合说明书的相关描述来解释实施例的运作原理。配合参考这些内容,本领域普通技术人员应能理解其他可能的实施方式以及本专利技术的优点。
[0029]现结合附图和具体实施方式对本专利技术进一步说明。
[0030]实施例一:
[0031]本专利技术实施例提供了一种语音鉴别方法,如图1所示,所述方法包括以下步骤:
[0032]S1:采集多个信道对应的经过预训练的多个声纹模型。
[0033]该实施例中为针对PLDA分类器的在线训练,所以需要预训练的声纹模型需要包括PLDA分类器,采用的算法可以为目前主流的算法如TDNN、ECAPA
‑
TDNN等,包含的多个信道为现有的主流信道,如微信语音、电话通话等,每个信道对应一个声纹模型。
[0034]S2:采集与待检测语音相同信道的语音数据,并划分为训练集、测试集和校准集。
[0035]步骤S2用于采集待检测语音来源相同的语音数据来对模型进行训练,使得模型输出结果更加准确,如待检测语音为微信语音,则采集的语音数据为微信语音数据;待检测语音为方言,则采集的语音数据也为对应的方言。
[0036]采集的语音数据还应进行说话人的标注,以便于候选组件正负样本对。
[0037]该实施例中训练集包含的语音数量不少于200人份,测试集和校准集包含的语音数量不少于100人份,且每个说话人至少包含两条语音。
[0038]S3:依次对S1中的各声纹模型进行模型性能判定,将满足要求的声纹模型作为鉴定模型,进入S5,当S1中所有各声纹模型均不满足要求时,进入S4。
[0039]该实施例中步骤S3的实现具体包括以下步骤:
[0040]S301:选择S1中的一个声纹模型;
[0041]S302:将测试集放入S3选择的声纹模型后,评估该声纹模型在该测试集上的性能效果,根据性能指标是否满足要求来确定该声纹模型是否可用;性能指标的要求包括Tippett图分布满足要求和Cllr(Check log
‑
likelihood ratio,校验对数似然比)<0.2;当Tippett图分布不满足要求时,返回S301重新选择声纹模型,直至所有声纹模型全部选择完毕后,进入S4;当Tippett图分布满足要求时,进入S303;
[0042]S303:判断是否满足cllr<0.2,如果是,将该声纹模型作为鉴定模型,进入S5;否则,通过校准集对该声纹模型进行分数校准;
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种语音鉴别方法,其特征在于,包括以下步骤:S1:采集多个信道对应的经过预训练的多个声纹模型;S2:采集与待检测语音相同信道的语音数据,并划分为训练集、测试集和校准集;S3:依次对S1中的各声纹模型进行模型性能判定,将满足要求的声纹模型作为鉴定模型,进入S5,当S1中所有各声纹模型均不满足要求时,进入S4;步骤S3具体包括以下步骤:S301:选择S1中的一个声纹模型;S302:将测试集放入S3选择的声纹模型后,评估该声纹模型在该测试集上的性能效果,根据性能指标是否满足要求来确定该声纹模型是否可用;性能指标的要求包括Tippett图分布满足要求和校验对数似然比cllr<0.2;当Tippett图分布不满足要求时,返回S301重新选择声纹模型,直至所有声纹模型全部选择完毕后,进入S4;当Tippett图分布满足要求时,进入S303;S303:判断是否满足cllr<0.2,如果是,将该声纹模型作为鉴定模型,进入S5;否则,通过校准集对该声纹模型进行分数校准;S304:判断校准后的声纹模型是否满足cllr<0.2,如果是,将校准后的声纹模型作为鉴定模型,进入S5;否则,返回S3重新选择模型,直至所有声纹模型全部选择完毕后,进入S4;S4:提取所有cllr值小于阈值的声纹模型,并通过训练集对提取的各声纹模型进行PLDA在线训练,并对PLDA在线训练后的模型进行模型...
【专利技术属性】
技术研发人员:刘焕玉,肖龙源,李稀敏,叶志坚,
申请(专利权)人:厦门快商通科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。