【技术实现步骤摘要】
【国外来华专利技术】合成语音检测
技术介绍
[0001]人工智能(AI)合成技术有许多不同的应用。例如,AI可被用于创造听起来高度逼真的、难以区分的和自然的声音。声音可能如此逼真以至于人类的耳朵和说话者识别/验证系统很难将声音标识为合成媒体(例如,深度伪造)。结果,个人或识别/验证系统可能错误地将合成媒体声音确认为人的真实声音,从而潜在地允许未经授权访问不同的系统。
[0002]因此,已知的系统可能无法令人满意地检测或标识逼真的合成声音,使得当这些合成声音被用于欺诈或其他不正当手段时,系统就无法得到充分的保护。例如,人工攻击和重放攻击(称为物理攻击(PA))以及文本到语音(TTS)和声音转换攻击(称为逻辑攻击(LA))正在增多。然而,已知的检测系统具有通常在针对特定任务的小数据集(例如,不超过50个说话者)上训练的模型,从而导致模型在实践中难以应用,并且通常不能在单个架构中充分地处理PA和LA两者。
技术实现思路
[0003]提供本
技术实现思路
以便以简化的形式介绍以下在具体实施方式中还描述的概念的选集。本
技术实现思路
并不旨在标识所要求保护的主题的 ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于合成语音检测(SSD)的计算机化方法,所述计算机化方法包括:接收包括音频的输入样本;提取与所述音频中的语音相对应的声学特征;使用多个神经网络来处理所提取的声学特征以输出经抽象特征;使用池化来生成与所述经抽象特征相对应的特征向量;在基本上同一时间使用所述特征向量来执行对SSD任务、说话者分类任务和信道分类任务的训练;以及至少使用经训练的SSD任务来检测合成语音。2.如权利要求1所述的计算机化方法,其特征在于,所述训练是使用前馈层来执行的,所述前馈层包括具有共享信息的SSD模型、说话者分类模型和信道分类模型。3.如权利要求1所述的计算机化方法,其特征在于,所述特征向量仅是与所有所述经抽象特征相对应的一个向量。4.如权利要求1所述的计算机化方法,其特征在于,所述多个神经网络是具有由用于执行所述训练的SSD模型、说话者分类模型和信道分类模型共享的输出的深度神经网络(DNN)。5.如权利要求1所述的计算机化方法,其特征在于,进一步包括使用检测到的合成语音来标识物理攻击(PA)和逻辑攻击(LA)中的至少一者。6.如权利要求1所述的计算机化方法,其特征在于,所述池化包括使用与所提取的声学特征相对应的多个权重的平均操作。7.如权利要求1所述的计算机化方法,其特征在于,进一步包括结合所述池化使用梯度反转层来生成所述特征向量。8.一种用于合成语音检测(SSD)的系统,所述系统包括:至少一个处理器;以及包括计算机程序代码的至少一个存储器,所述至少一个存储器和所述计算机程序代码被配置成与所述至少一个处理器一起使得所述至少一个处理器进行以下操作:接收包括音频的输入样本;提...
【专利技术属性】
技术研发人员:王科,何磊,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。