当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于测试反馈的核心训练语音选择方法技术

技术编号:29590374 阅读:17 留言:0更新日期:2021-08-06 19:50
本发明专利技术公开了一种基于测试反馈的核心训练语音选择方法,该方法利用获取的测试语音进行训练建立参考模型,然后计算原始训练语音在参考模型上的似然得分,再依据似然得分对各类语音进行排序,按照一定的比例对排序后的各类语音进行选择后得到核心训练语音。通过本发明专利技术提供的数据选择方法,可以根据测试结果反馈来筛选高质量的训练语音,所得的核心训练语音结合了实际应用信息反馈,因而未来的识别性能更佳;本发明专利技术方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。

【技术实现步骤摘要】
一种基于测试反馈的核心训练语音选择方法
本专利技术属于语音识别
,具体涉及一种基于测试反馈的核心训练语音选择方法。
技术介绍
声纹认证系统作为一种生物认证的方式,具有采集成本低、易于获取、方便远程认证等等优势,已经广泛应用于门禁系统、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展,一方面给人们带来了更方便的服务和更良好的用户体验,如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等,另一方面也给声纹认证系统的安全性带来了巨大的挑战,如利用合成语音攻击声纹认证系统使其性能显著下降,因此关于合成语音检测的研究具有重要的意义。合成语音检测的目的就是从真实语音中将合成语音检测出来。现有的关于合成语音检测的实验研究都是按照比赛设定的训练集进行训练的,通常会使用大量的训练数据;然而在实际情况中,当使用更多的训练数据时,性能反而有所下降,因为训练数据中是存在冗余的,进行数据选择是有必要的。在实际工程问题中,会遇到这样的场景:测试是分阶段进行的,一开始我们可以接触到一小部分测试数据,相当于具备了一些关于测试环境的先验知识,如何根据这一小部分测试数据去选择我们的训练数据,得到更优的模型,以便在后续的测试阶段取得更好的性能,是一个值得探讨的实际问题。
技术实现思路
当语音分类系统在实际运行中获取一定量的测试数据后,如何利用其来更新语音分类模型,使得未来的识别性能更佳;针对这个问题,本专利技术提出了一种基于测试反馈的核心训练语音选择方法,通过该方法可以利用已有的测试数据来选取高质量的核心训练语音,使得模型在使用更少训练语音的情况下取得更好的性能,不仅节约了训练时间和能耗,而且提升了识别性能。一种基于测试反馈的核心训练语音选择方法,包括如下步骤:S1.利用已知的部分测试语音进行训练获取参考模型;S2.计算所有训练语音在参考模型上的匹配得分;S3.对每类集合内的每条训练语音按照其模型得分依次进行排序;S4.根据一定比例逐类选取排名靠前的训练语音作为核心训练语音。进一步地,所述步骤S1的具体实现方式为:对于N类语音分类任务,将已知的部分测试语音按照所属类别划分为N个集合,依次对各个集合中的测试语音提取特征后分别进行训练以获得各类语音的参考模型,即N个参考模型,N为大于1的自然数即设定的语音类别数。进一步地,所述步骤S2的具体实现方式为:首先对原始训练语音按照语音类别进行分类后得到N个类训练语音集合,然后依次对各类训练语音集合中的原始训练语音提取特征后输入其对应类别的参考模型中,以计算输出得到各条训练语音的匹配得分即模型得分。本步骤中语音特征的提取方式与步骤S1训练参考模型时的语音特征提取方式保持一致。进一步地,所述步骤S3的具体实现方式为:根据步骤S2所获得的所有训练语音的匹配得分,按照语音类别对每一类训练语音集合中的训练语音以其模型得分从大到小进行排序。进一步地,所述步骤S4的具体实现方式为:根据步骤S3得到的各类训练语音集合中的语音排列顺序,按照一定的比例选择排名靠前的训练语音作为核心训练语音。通过本专利技术提供的核心语音选择方法,可以根据获取的测试结果反馈对原始训练语音进行选择,所得的核心训练语音结合了实际应用信息反馈,因而未来的识别性能更佳。附图说明图1为本专利技术阶段测试场景中选择核心训练语音方法的步骤流程示意图。具体实施方式本专利技术适用于语音识别、说话人识别、伪造语音识别等语音分类场景。为了进一步理解本专利技术,下面仅就合成语音检测中选择核心训练语音的应用具体实施例来对本专利技术的技术方案进行详细描述,但是应当理解,这些描述只是为进一步说明本专利技术的特征和优点,而不是对本专利技术权利要求的限制。本实施方式中的实验数据采用的是2019年自动说话人识别欺骗攻击与防御对策挑战赛逻辑访问数据库(ASVspoof2019-LA)、2015年自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof2015)以及真实场景合成语音检测数据集(RS-SSD)。ASVspoof挑战赛由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等多个世界领先的研究机构共同组织发起。ASVspoof2019的真实语音来自107个说话人,其中61人为女性、46人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含20个说话人,12人为女性、8人为男性,包含真实语音2580句、虚假语音22800句;开发集包含20个说话人,12人为女性、8人为男性,包含真实语音2548句、虚假语音22296句;评估集包含67个说话人,37人为女性、30人为男性,包含真是语音7355句、虚假语音63882句,评估集大小约为4GB。ASVspoof2015的真实语音来自106个说话人,其中61人为女性、45人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含25个说话人,15人为女性、10人为男性,包含真实语音3750句、虚假语音12625句;开发集包含35个说话人,20人为女性、15人为男性,包含真实语音2497句、虚假语音49875句;评估集包含46个说话人,26人为女性、20人为男性,约20万条测试语音,评估集大小约为20GB。真实场景合成语音检测数据集(Real-ScenarioSyntheticSpeechDetectionDatabase),简称为RS-SSD数据集,其中合成语音包括来自谷歌、腾讯、百度的合成语音和新华社人工智能(AI)主播的合成语音,时长共计4.12小时;同等时长的真实语音,包括来自网络媒体视频的真实语音、新华社新闻视频的真实语音以及部分来自浙江大学CCNT实验室发布的中文情感语料库(MandarinAffectiveSpeechCorpus,MASC)、希尔贝壳提供的中文普通话开源语音数据库AISHELL1两个数据库的真实语音。其中各个类别的语音内容多样,包含了如新闻播报、智能家居、无人驾驶、工业生产等各种场景的语音内容。如图1所示,本专利技术基于测试反馈的核心训练语音选择方法包括如下步骤:S1.使用已知的部分测试语句进行训练获取参考模型参数;S2.计算所有训练语句在参考模型上的似然得分;S3.对所有真实语句和合成语句的似然得分分别进行降序和升序排序;S4.分别选取排名靠前的真实语句和合成语句组成训练集。前述步骤S1的具体实施方法是:首先定义合成语音检测中,真实语音训练语料为X_genuine、虚假语音训练语料为X_spoof、目标挑选语音个数为Mgenuine和Mspoof,已知的部分测试语音Q_genuine和Q_spoof,挑选后的语音集合为Cgenuine,Cspo本文档来自技高网...

【技术保护点】
1.一种基于测试反馈的核心训练语音选择方法,包括如下步骤:/nS1.利用已知的部分测试语音进行训练获取参考模型;/nS2.计算所有训练语音在参考模型上的匹配得分;/nS3.对每类集合内的每条训练语音按照其模型得分依次进行排序;/nS4.根据一定比例逐类选取排名靠前的训练语音作为核心训练语音。/n

【技术特征摘要】
20200429 CN 20201035685721.一种基于测试反馈的核心训练语音选择方法,包括如下步骤:
S1.利用已知的部分测试语音进行训练获取参考模型;
S2.计算所有训练语音在参考模型上的匹配得分;
S3.对每类集合内的每条训练语音按照其模型得分依次进行排序;
S4.根据一定比例逐类选取排名靠前的训练语音作为核心训练语音。


2.根据权利要求1所述的核心训练语音选择方法,其特征在于:所述步骤S1的具体实现方式为:对于N类语音分类任务,将已知的部分测试语音按照所属类别划分为N个集合,依次对各个集合中的测试语音提取特征后分别进行训练以获得各类语音的参考模型,即N个参考模型,N为大于1的自然数即设定的语音类别数。

...

【专利技术属性】
技术研发人员:杨莹春魏含玉吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1