当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于核心帧筛选的模型得分优化方法技术

技术编号:29679413 阅读:28 留言:0更新日期:2021-08-13 22:02
本发明专利技术公开了一种基于核心帧筛选的模型得分优化方法,具体步骤为:S1.使用训练数据进行训练获取模型参数;S2.计算各帧语音在语音中的重要度权重;S3.按照重要度权重排序选取各个语音的核心帧;S4.使用核心帧数据训练获取模型参数;S5.通过计算重要度权重选取测试语音的核心帧;S6.对测试语音的核心帧进行打分得到语音的得分进行决策。通过本发明专利技术得分优化方法可以选取语音中高质量的核心帧作为打分依据,以提升检测性能,该方法适用于语音识别、说话人识别、伪造语音识别等语音分类场景。

【技术实现步骤摘要】
一种基于核心帧筛选的模型得分优化方法
本专利技术属于语音识别
,具体涉及一种基于核心帧筛选的模型得分优化方法。
技术介绍
声纹认证系统作为一种生物认证的方式,具有采集成本低、易于获取、方便远程认证等等优势,已经广泛应用于门禁系统、金融交易和司法鉴定等等领域。随着语音合成技术飞速发展,一方面给人们带来了更方便的服务和更良好的用户体验,如真声智能客服、真声智能导航、有声读物、智能语音呼叫等等;另一方面也给声纹认证系统的安全性带来了巨大的挑战,如利用合成语音攻击声纹认证系统使其性能显著下降,因此关于合成语音检测的研究具有重要的意义。合成语音检测的目的就是从真实语音中将合成语音检测出来。主流的GMM检测系统中,当进行到测试阶段,首先提取测试语音的语音特征序列,然后通过训练好的GMM模型,计算出各帧得分,然后对各帧的得分求取均值作为该测试语音的得分,进行决策判断;而实际上当通过人耳听辨语音真假的时候,并不会平均关注到每一帧的信息,我们会更多的关注到一些特别的帧,比如停顿连贯性、多音字读音准确性以及断句方式自然性等等,因此GMM均值打分法在合成语音检测中是具有不合理性的,进行得分方法优化成为一个值得关注的课题。
技术实现思路
为了解决得分优化的问题,本专利技术提出了一种基于核心帧筛选的模型得分优化方法,使用该方法可以选取语音中高质量的核心帧作为打分依据,以提升检测性能。一种基于核心帧筛选的模型得分优化方法,包括如下步骤:S1.利用训练语音训练原始模型;S2.利用原始模型计算训练语音中各帧的重要度权重;S3.按照重要度权重排序选取每条训练语音的核心帧;S4.利用训练语音的核心帧训练核心模型;S5.利用原始模型计算测试语音中各帧的重要度权重;S6.按照重要度权重排序选取每条测试语音的核心帧;S7.将测试语音的核心帧输入核心模型中计算匹配得分,该得分即为优化后的模型得分。进一步地,所述步骤S1的具体实现方式为:对于N类语音识别任务,将所有训练语音按照所属类别划分为N个集合,依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型,即N个原始模型,用于之后计算似然得分,N为大于1的自然数即设定的语音类别数。进一步地,所述步骤S2的具体实现方式为:对于任一条训练语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。进一步地,所述步骤S3的具体实现方式为:对于步骤S2所获得重要度权重,对训练语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为训练语音的核心帧。进一步地,所述步骤S4的具体实现方式为:对于步骤S3所获得的核心帧,对其提取特征后按照类别分别进行训练以获得各类语音的核心模型,用于之后计算优化后的模型得分。进一步地,所述步骤S5的具体实现方式为:对于任一条测试语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行归一化,作为各帧的重要度权重。进一步地,所述步骤S6的具体实现方式为:对于步骤S5所获得重要度权重,对测试语音内各帧按重要度权重从大到小进行排序,选取一定比例排名靠前的帧作为测试语音的核心帧。进一步地,本专利技术方法过程中步骤S1~S4为训练阶段,步骤S5~S7为测试阶段。通过本专利技术提供的得分优化方法,不直接计算各语音帧得分的均值,而是计算核心帧的得分均值作为语音最终得分,可以使得分更多的偏向重要度较高的语音帧,因此能够提升模型的分类性能。附图说明图1为本专利技术模型得分优化方法训练阶段的流程示意图。图2为本专利技术模型得分优化方法测试阶段的流程示意图。具体实施方式本专利技术适用于语音识别、说话人识别、伪造语音识别等语音分类场景。为了进一步理解本专利技术,下面仅就合成语音检测中选择核心训练语音模型得分优化的应用具体实施例来对本专利技术的技术方案进行详细描述,但是应当理解,这些描述只是为进一步说明本专利技术的特征和优点,而不是对本专利技术权利要求的限制。本实施方式中的实验数据采用的是2019年自动说话人识别欺骗攻击与防御对策挑战赛逻辑访问数据库(ASVspoof2019-LA)、2015年自动说话人识别欺骗攻击与防御对策挑战赛(ASVspoof2015)和真实场景合成语音检测数据集(RS-SSD)。ASVspoof挑战赛由英国爱丁堡大学、法国EURECOM、日本NEC、东芬兰大学等多个世界领先的研究机构共同组织发起。ASVspoof2019的真实语音来自107个说话人,其中61人为女性、46人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含20个说话人,12人为女性、8人为男性,包含真实语音2580句、虚假语音22800句;开发集包含20个说话人,12人为女性、8人为男性,包含真实语音2548句、虚假语音22296句;评估集包含67个说话人,37人为女性、30人为男性,包含真是语音7355句、虚假语音63882句,评估集大小约为4GB。ASVspoof2015的真实语音来自106个说话人,其中61人为女性、45人为男性,数据集被划分为三部分:训练集(Train)、开发集(Dev)、评估集(Eval),录音环境较安静,没有明显的信道或环境噪声。训练集和开发集的虚假语音是用各种算法从真实语音中生成的,其中训练集包含25个说话人,15人为女性、10人为男性,包含真实语音3750句、虚假语音12625句;开发集包含35个说话人,20人为女性、15人为男性,包含真实语音2497句、虚假语音49875句;评估集包含46个说话人,26人为女性、20人为男性,约20万条测试语音,评估集大小约为20GB。真实场景合成语音检测数据集(Real-ScenarioSyntheticSpeechDetectionDatabase),简称为RS-SSD数据集,其中合成语音包括来自谷歌、腾讯、百度的合成语音和新华社人工智能(AI)主播的合成语音,时长共计4.12小时,以及同等时长的真实语音,包括来自网络媒体视频的真实语音、新华社新闻视频的真实语音、部分来自浙江大学CCNT实验室发布的中文情感语料库(MandarinAffectiveSpeechCorpus,MASC)、希尔贝壳提供的中文普通话开源语音数据库AISHELL1两个数据库的真实语音;其中各个类别的语音内容多样,包含了如新闻播报、智能家居、无人驾驶、工业生产等各种场景的语音内容。如图1和图2所示,本专利技术基于核心帧筛选的模型得分优化方法包括如下步骤:S1.使用训练数据进行训练获取模型参数;S2.计算各帧语音在语句中的重要度权重;S3.按照重要度权重排序选取各个语句的核心帧;S4.使用核心帧数据训练获取模型参数;S5.通本文档来自技高网...

【技术保护点】
1.一种基于核心帧筛选的模型得分优化方法,包括如下步骤:/nS1.利用训练语音训练原始模型;/nS2.利用原始模型计算训练语音中各帧的重要度权重;/nS3.按照重要度权重排序选取每条训练语音的核心帧;/nS4.利用训练语音的核心帧训练核心模型;/nS5.利用原始模型计算测试语音中各帧的重要度权重;/nS6.按照重要度权重排序选取每条测试语音的核心帧;/nS7.将测试语音的核心帧输入核心模型中计算匹配得分,该得分即为优化后的模型得分。/n

【技术特征摘要】
20200430 CN 20201036138111.一种基于核心帧筛选的模型得分优化方法,包括如下步骤:
S1.利用训练语音训练原始模型;
S2.利用原始模型计算训练语音中各帧的重要度权重;
S3.按照重要度权重排序选取每条训练语音的核心帧;
S4.利用训练语音的核心帧训练核心模型;
S5.利用原始模型计算测试语音中各帧的重要度权重;
S6.按照重要度权重排序选取每条测试语音的核心帧;
S7.将测试语音的核心帧输入核心模型中计算匹配得分,该得分即为优化后的模型得分。


2.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S1的具体实现方式为:对于N类语音识别任务,将所有训练语音按照所属类别划分为N个集合,依次对各个集合中的训练语音提取特征后分别进行训练以获得各类语音的原始模型,即N个原始模型,用于之后计算似然得分,N为大于1的自然数即设定的语音类别数。


3.根据权利要求1所述的模型得分优化方法,其特征在于:所述步骤S2的具体实现方式为:对于任一条训练语音,分别计算其中各帧在对应类别原始模型中的似然得分,进而对各帧的似然得分进行...

【专利技术属性】
技术研发人员:杨莹春魏含玉吴朝晖
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1