音频摘要生成方法、系统和电子设备及存储介质技术方案

技术编号:34521582 阅读:16 留言:0更新日期:2022-08-13 21:11
本发明专利技术实施例提供一种音频摘要生成方法、系统和电子设备及存储介质。该方法包括:接收数据集,其中,数据集包括:音频摘要数据集和声音事件检测数据集;将声音事件检测数据集输入至音频事件检测模型,得到表示预估声音事件以及对应时序关系的音频标记;利用表示真实声音事件但无时间戳的弱标签对音频标记中的预估声音事件进行声音事件准确判断;若声音事件准确判断正确,将音频标记作为音频摘要数据集和声音事件检测数据集的统一标记;利用统一标记对数据集进行时序关系的数据增强,得到时序可控的音频摘要。本发明专利技术实施例可使用连接词来表示声音事件之间的时间关系。带有时序关系的语句对于音频的描述更贴近于人类的表达,进而提升用户的体验。升用户的体验。升用户的体验。

【技术实现步骤摘要】
音频摘要生成方法、系统和电子设备及存储介质


[0001]本专利技术涉及智能语音领域,尤其涉及一种音频摘要生成方法、系统和电子设备及存储介质。

技术介绍

[0002]随着深度学习的发展,AAC(automated audio captioning,自动音频描述)取得了显著的进步。自动音频描述旨在为给定的音频片段生成自然语言描述生成音频摘要,相比通过声音事件分类、检测和定位等任务,音频摘要可以对声音进行无限制的描述。在智能家居助手和网站多媒体内容自动描述生成等应用中,这对帮助机器更好地与人类交互很有意义。对于音频摘要的生成通常可以:1、基于大规模预训练的模型对音频编码器和文本译码器进行预训练,提高生成语句对音频的理解和表达;2、通过预测额外信息或者直接输入额外信息的方法(额外信息包括关键词、声音事件标签、相似文本等),增强生成语句中对声音事件的表达。
[0003]在实现本专利技术过程中,专利技术人发现相关技术中至少存在如下问题:
[0004]AAC系统能够表达事件或场景的特定属性以及它们之间的关系。与基于视觉的摘要显示不同,基于视觉的摘要显示可以提取大量的空间属性,音频事件的关系主要局限于其时间特性。例如,一个声音事件可以发生在另一个事件之前、之后或与另一个事件同时发生。
[0005]现有模型的生成对声音事件之间的关系不敏感,在不加约束的情况下,容易使用类似“和”这种比较泛化的连词来概括事件之间的关系,导致生成的语句对时序关系的描述模糊,影响了与用户交互的实际体验。

技术实现思路

[0006]为了至少解决现有技术中音频摘要对声音事件之间的关系不敏感,对时序关系的描述模糊,影响了与用户交互的实际体验的问题。第一方面,本专利技术实施例提供一种音频摘要生成方法,包括:接收数据集,其中,所述数据集包括:音频摘要数据集和声音事件检测数据集,所述声音事件检测数据集包括:表示真实声音事件但无时间戳的弱标签;
[0007]将所述声音事件检测数据集输入至音频事件检测模型,得到表示预估声音事件以及对应时序关系的音频标记;
[0008]利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断;
[0009]若声音事件准确判断正确,将所述音频标记作为所述音频摘要数据集和声音事件检测数据集的统一标记;
[0010]利用所述统一标记对所述数据集进行时序关系的数据增强,得到时序可控的音频摘要。
[0011]第二方面,本专利技术实施例提供一种音频摘要生成系统,包括:
[0012]数据集确定程序模块,用于接收数据集,其中,所述数据集包括:音频摘要数据集和声音事件检测数据集,所述声音事件检测数据集包括:表示真实声音事件但无时间戳的弱标签;
[0013]音频标记程序模块,将所述声音事件检测数据集输入至音频事件检测模型,得到表示预估声音事件以及对应时序关系的音频标记;
[0014]声音事件校验程序模块,用于利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断;
[0015]标记统一程序模块,用于若声音事件准确判断正确,将所述音频标记作为所述音频摘要数据集和声音事件检测数据集的统一标记;
[0016]音频摘要生成程序模块,用于利用所述统一标记对所述数据集进行时序关系的数据增强,得到时序可控的音频摘要。
[0017]第三方面,提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本专利技术任一实施例的音频摘要生成方法的步骤。
[0018]第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现本专利技术任一实施例的音频摘要生成方法的步骤。
[0019]本专利技术实施例的有益效果在于:本方法对摘要生成的质量没有明显的负面影响。并且基于修改后的数据进行训练,极大地提高了时间信息的二元分类度量。借助于额外的输入时间标签,可以使用连接词来表示声音事件之间的时间关系。该模型基于不同的输入时间标签,可以自由控制时间信息的形式。带有时序关系的语句对于音频的描述更贴近于人类的表达,进而提升用户的体验。
附图说明
[0020]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是本专利技术一实施例提供的一种音频摘要生成方法的流程图;
[0022]图2是本专利技术一实施例提供的一种音频摘要生成方法的整体结构图;
[0023]图3是本专利技术一实施例提供的一种音频摘要生成方法的从文本(标注)和音频(SED结果)中提取的时间标记的示意图;
[0024]图4是本专利技术一实施例提供的一种音频摘要生成方法的系统架构图;
[0025]图5是本专利技术一实施例提供的一种音频摘要生成方法的系统性能示意图;
[0026]图6是本专利技术一实施例提供的一种音频摘要生成方法的消融结果示意图;
[0027]图7是本专利技术一实施例提供的一种音频摘要生成系统的结构示意图;
[0028]图8为本专利技术一实施例提供的一种音频摘要生成的电子设备的实施例的结构示意图。
具体实施方式
[0029]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0030]如图1所示为本专利技术一实施例提供的一种音频摘要生成方法的流程图,包括如下步骤:
[0031]S11:接收数据集,其中,所述数据集包括:音频摘要数据集和声音事件检测数据集,所述声音事件检测数据集包括:表示真实声音事件但无时间戳的弱标签;
[0032]S12:将所述声音事件检测数据集输入至音频事件检测模型,得到表示预估声音事件以及对应时序关系的音频标记;
[0033]S13:利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断;
[0034]S14:若声音事件准确判断正确,将所述音频标记作为所述音频摘要数据集和声音事件检测数据集的统一标记;
[0035]S15:利用所述统一标记对所述数据集进行时序关系的数据增强,得到时序可控的音频摘要。
[0036]在本实施方式中,本申请考虑到当前音频摘要缺乏时间(音频对应的时间)的一个原因是,在带有SED结果的注释摘要中,具有时间关系的训练摘要数量有限。从而通过提出时本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频摘要生成方法,包括:接收数据集,其中,所述数据集包括:音频摘要数据集和声音事件检测数据集,所述声音事件检测数据集包括:表示真实声音事件但无时间戳的弱标签;将所述声音事件检测数据集输入至音频事件检测模型,得到表示预估声音事件以及对应时序关系的音频标记;利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断;若声音事件准确判断正确,将所述音频标记作为所述音频摘要数据集和声音事件检测数据集的统一标记;利用所述统一标记对所述数据集进行时序关系的数据增强,得到时序可控的音频摘要。2.根据权利要求1所述的方法,其中,在所述利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断之前,所述方法还包括:提取所述音频摘要数据集的文本标记;利用所述表示真实声音事件但无时间戳的弱标签对所述音频标记中的预估声音事件进行声音事件准确判断;若声音事件准确判断错误,将所述文本标记作为所述音频摘要数据集和声音事件检测数据集的统一标记。3.根据权利要求1所述的方法,其中,所述将所述声音事件检测数据集输入至音频事件检测模型,得到表示预估声音事件以及对应时序关系的音频标记包括:预估所述音事件检测数据集中的各声音事件,以及所述各声音事件对应的起止时间;对预估的声音事件以及对应的起止时间进行标定,确定表示预估声音事件以及对应时序关系的音频标记。4.根据权利要求2所述的方法,其中,所述提取所述音频摘要数据集的文本标记包括:多所述音频摘要数据集进行连词检测,得到表示各词语先后时序关系的文本标记。5.一种音频摘要生成系统,包括:数据集确定程序模块,用于接收数据集,其中,所述数据集包括:音频摘要数据集和声音事件检测数据集,所述声音事件检测数据集包括:表示真实声音事件但无时间戳的弱标签;音频标记程序模块,将所述...

【专利技术属性】
技术研发人员:俞凯吴梦玥谢泽宇徐薛楠
申请(专利权)人:思必驰科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1