音频摘要模型训练方法、系统、电子设备和存储介质技术方案

技术编号：33039115 阅读：17 留言：0更新日期：2022-04-15 09:18

本发明专利技术公开音频摘要模型训练方法、系统、电子设备和存储介质，其中，一种音频摘要模型训练方法，包括：同时训练一个判别器和一个音频摘要模型，其中，所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c，其中，所述条件c用于表征所述音频摘要与所述标注文字的相似度；通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。本申请实施例的方法同时训练一个对于输出文本的风格的判别器和一个音频摘要模型，通过对抗学习，能够迫使音频摘要模型能够输出给定条件的摘要，之后可以通过收集更加风格多变的标注文本，做到更加可控制的、准确的且多样化的音频摘要生成。音频摘要生成。音频摘要生成。

全部详细技术资料下载

【技术实现步骤摘要】
音频摘要模型训练方法、系统、电子设备和存储介质

[0001]本专利技术属于音频摘要模型训练
，尤其涉及音频摘要模型训练方法、系统、电子设备和存储介质。

技术介绍

[0002]自动音频摘要是一项具有挑战性的任务，需要识别和理解音频内容，然后用自然语言对其进行总结。摘要可能包括声学场景、声音事件、声音属性甚至高层的抽象语义信息。与结构化的标签输出相比，音频摘要与人类处理音频的方式更加相关，适用于自动内容描述或智能人机交互应用。
[0003]近年来，音频摘要引起了很多关注。研究人员旨在通过结合预训练和关键词额外输入等方法来提高描述的准确性。然而，与大多数自然语言生成任务一样，音频摘要也存在多样性不足的问题。通过最大似然估计(maximum likelihood estimation，MLE)训练的系统倾向于生成通用的输出，通常是训练语料库中最常见的模式。相比之下，人工标注会用不同的风格来描述相同的音频片段，包括句子结构、措辞选择。
[0004]虽然之前的一些工作已经解决了多样性问题，但其中大多数工作在表现出更高多样性的同时，准确性却有所下降。一些工作侧重于生成更具描述性的、内容相关的输出。例如，鼓励系统把“一把刀”而不是“一个金属物体”放在磨刀的音频片段中。这样，当为一个音频生成相同数量的摘要时，由于描述更详细，因此提高了该音频摘要总体的多样性。其他工作努力通过为单个输入生成更多输出来提高多样性。与单输出系统相比，给定相同输入的多个输出导致输入实例具有更高的多样性。对于促进集合多样性的工作，多样性改进...

【技术保护点】

【技术特征摘要】
1.一种音频摘要模型训练方法，包括：同时训练一个判别器和一个音频摘要模型，其中，所述判别器用于对对所述音频摘要模型输出的音频摘要和标注文字进行判别得到条件c，其中，所述条件c用于表征所述音频摘要与所述标注文字的相似度；通过对所述判别器和所述音频摘要模型进行对抗训练以使所述音频摘要模型能够输出给定条件的音频摘要。2.根据权利要求1所述的方法，其中，所述通过对所述判别器和所述音频摘要模型进行对抗训练包括：利用所述音频摘要模型输出的音频摘要和所述标注文字之间的交叉熵损失以及所述条件c和真实条件c的条件损失对所述音频摘要模型和所述神经网络判别器进行对抗训练。3.根据权利要求2所述的方法，其中，所述音频摘要模型包括音频编码器和文本解码器，所述音频编码器用于将输入音频编码成音频嵌入序列，所述文本解码器根据所述音频嵌入序列和所述判别器的条件c生成单词概率。4.根据权利要求3所述的方法，其中，所述通过对所述判别器和所述音频摘要模型进行对抗训练包括：在所述对抗训练的过程中采用第一阶段和第二阶段交替进行，其中，所述第一阶段包括：仅更新所述音频摘要模型的参数，固定所述判别器的参数，所述音频摘要模型使用音频输入和所述条件c估计单词概率，使用所述交叉熵损失和所述条件损失进行训练；所述第二阶段包括：固定所述音频摘要模型的参数，仅更新所述判别器的参数，所述判别器在所述标注文字和所述音频摘要模型的输出上进行训练。5.根据权...

【专利技术属性】
技术研发人员：俞凯，吴梦玥，徐薛楠，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人