音频摘要生成方法、系统和电子设备及存储介质技术方案

技术编号：34521582 阅读：16 留言：0更新日期：2022-08-13 21:11

本发明专利技术实施例提供一种音频摘要生成方法、系统和电子设备及存储介质。该方法包括：接收数据集，其中，数据集包括：音频摘要数据集和声音事件检测数据集；将声音事件检测数据集输入至音频事件检测模型，得到表示预估声音事件以及对应时序关系的音频标记；利用表示真实声音事件但无时间戳的弱标签对音频标记中的预估声音事件进行声音事件准确判断；若声音事件准确判断正确，将音频标记作为音频摘要数据集和声音事件检测数据集的统一标记；利用统一标记对数据集进行时序关系的数据增强，得到时序可控的音频摘要。本发明专利技术实施例可使用连接词来表示声音事件之间的时间关系。带有时序关系的语句对于音频的描述更贴近于人类的表达，进而提升用户的体验。升用户的体验。升用户的体验。

全部详细技术资料下载

【技术实现步骤摘要】
音频摘要生成方法、系统和电子设备及存储介质

[0001]本专利技术涉及智能语音领域，尤其涉及一种音频摘要生成方法、系统和电子设备及存储介质。

技术介绍

[0002]随着深度学习的发展，AAC(automated audio captioning，自动音频描述)取得了显著的进步。自动音频描述旨在为给定的音频片段生成自然语言描述生成音频摘要，相比通过声音事件分类、检测和定位等任务，音频摘要可以对声音进行无限制的描述。在智能家居助手和网站多媒体内容自动描述生成等应用中，这对帮助机器更好地与人类交互很有意义。对于音频摘要的生成通常可以：1、基于大规模预训练的模型对音频编码器和文本译码器进行预训练，提高生成语句对音频的理解和表达；2、通过预测额外信息或者直接输入额外信息的方法(额外信息包括关键词、声音事件标签、相似文本等)，增强生成语句中对声音事件的表达。
[0003]在实现本专利技术过程中，专利技术人发现相关技术中至少存在如下问题：
[0004]AAC系统能够表达事件或场景的特定属性以及它们之间的关系。与基于视觉的摘要显示不同，基于视觉的摘要显示可以提取大量的空间属性，音频事件的关系主要局限于其时间特性。例如，一个声音事件可以发生在另一个事件之前、之后或与另一个事件同时发生。
[0005]现有模型的生成对声音事件之间的关系不敏感，在不加约束的情况下，容易使用类似“和”这种比较泛化的连词来概括事件之间的关系，导致生成的语句对时序关系的描述模糊，影响了与用户交互的实际体验。

技术实现思路

...

【技术保护点】

【技术特征摘要】
1.一种音频摘要生成方法，包括：接收数据集，其中，所述数据集包括：音频摘要数据集和声音事件检测数据集，所述声音事件检测数据集包括：表示真实声音事件但无时间戳的弱标签；将所述声音事件检测数据集输入至音频事件检测模型，得到表示预估声音事件以及对应时序关系的音频标记；利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断；若声音事件准确判断正确，将所述音频标记作为所述音频摘要数据集和声音事件检测数据集的统一标记；利用所述统一标记对所述数据集进行时序关系的数据增强，得到时序可控的音频摘要。2.根据权利要求1所述的方法，其中，在所述利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断之前，所述方法还包括：提取所述音频摘要数据集的文本标记；利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断；若声音事件准确判断错误，将所述文本标记作为所述音频摘要数据集和声音事件检测数据集的统一标记。3.根据权利要求1所述的方法，其中，所述将所述声音事件检测数据集输入至音频事件检测模型，得到表示预估声音事件以及对应时序关系的音频标记包括：预估所述音事件检测数据集中的各声音事件，以及所述各声音事件对应的起止时间；对预估的声音事件以及对应的起止时间进行标定，确定表示预估声音事件以及对应时序关系的音频标记。4.根据权利要求2所述的方法，其中，所述提取所述音频摘要数据集的文本标记包括：多所述音频摘要数据集进行连词检测，得到表示各词语先后时序关系的文本标记。5.一种音频摘要生成系统，包括：数据集确定程序模块，用于接收数据集，其中，所述数据集包括：音频摘要数据集和声音事件检测数据集，所述声音事件检测数据集包括：表示真实声音事件但无时间戳的弱标签；音频标记程序模块，将所述...

【专利技术属性】
技术研发人员：俞凯，吴梦玥，谢泽宇，徐薛楠，
申请(专利权)人：思必驰科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人