音频摘要模型训练方法、系统、电子设备和存储介质技术方案

技术编号:33039115 阅读:17 留言:0更新日期:2022-04-15 09:18
本发明专利技术公开音频摘要模型训练方法、系统、电子设备和存储介质,其中,一种音频摘要模型训练方法,包括:同时训练一个判别器和一个音频摘要模型,其中,所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c,其中,所述条件c用于表征所述音频摘要与所述标注文字的相似度;通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。本申请实施例的方法同时训练一个对于输出文本的风格的判别器和一个音频摘要模型,通过对抗学习,能够迫使音频摘要模型能够输出给定条件的摘要,之后可以通过收集更加风格多变的标注文本,做到更加可控制的、准确的且多样化的音频摘要生成。音频摘要生成。音频摘要生成。

【技术实现步骤摘要】
音频摘要模型训练方法、系统、电子设备和存储介质


[0001]本专利技术属于音频摘要模型训练
,尤其涉及音频摘要模型训练方法、系统、电子设备和存储介质。

技术介绍

[0002]自动音频摘要是一项具有挑战性的任务,需要识别和理解音频内容,然后用自然语言对其进行总结。摘要可能包括声学场景、声音事件、声音属性甚至高层的抽象语义信息。与结构化的标签输出相比,音频摘要与人类处理音频的方式更加相关,适用于自动内容描述或智能人机交互应用。
[0003]近年来,音频摘要引起了很多关注。研究人员旨在通过结合预训练和关键词额外输入等方法来提高描述的准确性。然而,与大多数自然语言生成任务一样,音频摘要也存在多样性不足的问题。通过最大似然估计(maximum likelihood estimation,MLE)训练的系统倾向于生成通用的输出,通常是训练语料库中最常见的模式。相比之下,人工标注会用不同的风格来描述相同的音频片段,包括句子结构、措辞选择。
[0004]虽然之前的一些工作已经解决了多样性问题,但其中大多数工作在表现出更高多样性的同时,准确性却有所下降。一些工作侧重于生成更具描述性的、内容相关的输出。例如,鼓励系统把“一把刀”而不是“一个金属物体”放在磨刀的音频片段中。这样,当为一个音频生成相同数量的摘要时,由于描述更详细,因此提高了该音频摘要总体的多样性。其他工作努力通过为单个输入生成更多输出来提高多样性。与单输出系统相比,给定相同输入的多个输出导致输入实例具有更高的多样性。对于促进集合多样性的工作,多样性改进带来的摘要准确性下降尤其显著,例如基于GAN的方法。
[0005]在音频摘要中,Ikawa等人提出了一种控制输出特异性的系统,即生成的摘要内容的具体程度。逆词频之和被用来当做句子特异性的指标。该工作可以生成具有不同给定特异性的多个摘要。这种统计条件虽然简单明了,但它只捕捉了词频特征,而没有考虑短语和句子结构等模式,可能出现这样的情况:鼓励模型生成不是最通用的表达,但在训练语料库中仍然很常见(即“亚通用”)的表达。

技术实现思路

[0006]本专利技术实施例提供一种音频摘要模型训练方法和系统和装置,用于至少解决上述技术问题之一。
[0007]第一方面,本专利技术实施例提供一种音频摘要模型训练方法,包括:同时训练一个判别器和一个音频摘要模型,其中,所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c,其中,所述条件c用于表征所述音频摘要与所述标注文字的相似度;通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。
[0008]第二方面,本专利技术实施例提供一种音频摘要系统,包括:根据本申请任一实施例的
音频编码器;根据本申请任一实施例的文本解码器;以及根据本申请任一实施例的判别器。
[0009]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的音频摘要模型训练方法的步骤。
[0010]第四方面,本专利技术实施例还提供一种计算机程序产品,所述计算机程序产品包括存储在非易失性计算机可读存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行本专利技术任一实施例的音频摘要模型训练方法的步骤。
[0011]本申请实施例的方法采用了类似闭环学习的做法,同时训练一个对于输出文本的风格的判别器和一个音频摘要模型,通过对抗学习,能够迫使音频摘要模型能够输出给定条件的摘要,之后可以通过收集更加风格多变的标注文本,做到更加可控制的、准确的且多样化的音频摘要生成。
附图说明
[0012]为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0013]图1为本专利技术一实施例提供的一种音频摘要模型训练方法的流程图;
[0014]图2为本专利技术一实施例提供的本申请实施例提议的神经条件摘要框架;
[0015]图3为本专利技术一实施例提供的Clotho上的准确度

多样性曲线。
[0016]图4为本专利技术一实施例提供的Audiocaps上的准确度

多样性曲线;
[0017]图5为本专利技术一实施例提供的在Clotho上使用不同输入c所提出方法的详细准确度和多样性结果;
[0018]图6为本专利技术一实施例提供的神经条件摘要模型生成具有不同输入c的摘要的示例;
[0019]图7是本专利技术一实施例提供的电子设备的结构示意图。
具体实施方式
[0020]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0021]请参考图1,其示出了本申请的音频摘要模型训练方法和系统一实施例的流程图。
[0022]如图1所示,在步骤101中,同时训练一个判别器和一个音频摘要模型,其中,所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c,其中,所述条件c用于表征所述音频摘要与所述标注文字的相似度;
[0023]在步骤102中,通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音
频摘要模型能够输出给定条件的音频摘要。
[0024]本申请实施例的方法采用了类似闭环学习的做法,同时训练一个对于输出文本的风格的判别器和一个音频摘要模型,通过对抗学习,能够迫使音频摘要模型能够输出给定条件的摘要,之后可以通过收集更加风格多变的标注文本,做到更加可控制的、准确的且多样化的音频摘要生成。
[0025]在一些可选的实施例中,所述通过对所述判别器和所述音频摘要模型进行对抗训练包括:利用所述音频摘要模型输出的音频摘要和所述标注文字之间的交叉熵损失以及所述条件c和真实条件c的条件损失对所述音频摘要模型和所述神经网络判别器进行对抗训练。从而通过添加一个额外的条件损失,可以鼓励摘要模型生成具有相应特异性的音频摘要。
[0026]在一些可选的实施例中,所述音频摘要模型包括音频编码器和文本解码器,所述音频编码器用于将输入音频编码成音频嵌入序列,所述文本解码器根据所述音频嵌入序列和所述判别器的条件c生成单词概率。之后可以根据该单词概率得到最终的音频摘要。
[0027]在一些可选的实施例中,所述通过对所述判别器和所述音频摘要模型进行对抗训练包括:在所述对抗训练的过程中采用第本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频摘要模型训练方法,包括:同时训练一个判别器和一个音频摘要模型,其中,所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c,其中,所述条件c用于表征所述音频摘要与所述标注文字的相似度;通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。2.根据权利要求1所述的方法,其中,所述通过对所述判别器和所述音频摘要模型进行对抗训练包括:利用所述音频摘要模型输出的音频摘要和所述标注文字之间的交叉熵损失以及所述条件c和真实条件c的条件损失对所述音频摘要模型和所述神经网络判别器进行对抗训练。3.根据权利要求2所述的方法,其中,所述音频摘要模型包括音频编码器和文本解码器,所述音频编码器用于将输入音频编码成音频嵌入序列,所述文本解码器根据所述音频嵌入序列和所述判别器的条件c生成单词概率。4.根据权利要求3所述的方法,其中,所述通过对所述判别器和所述音频摘要模型进行对抗训练包括:在所述对抗训练的过程中采用第一阶段和第二阶段交替进行,其中,所述第一阶段包括:仅更新所述音频摘要模型的参数,固定所述判别器的参数,所述音频摘要模型使用音频输入和所述条件c估计单词概率,使用所述交叉熵损失和所述条件损失进行训练;所述第二阶段包括:固定所述音频摘要模型的参数,仅更新所述判别器的参数,所述判别器在所述标注文字和所述音频摘要模型的输出上进行训练。5.根据权...

【专利技术属性】
技术研发人员:俞凯吴梦玥徐薛楠
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1