System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,尤其涉及一种多事件音频-文本对生成方法及装置。
技术介绍
1、近年来,音频-文本学习越来越受到关注。与视觉语言学习类似,与标签为预定义类别的分类数据相比,机器在文本监督信号下学习声音概念的效率更高。音频-文本跨模态任务的开发为开发更自然的人机交互系统带来了希望。
2、现有的人工标注数据数量有限,这给音频-文本学习带来了巨大挑战。有几项研究利用模板或生成模型将类别标签或网络抓取的描述转换为描述语句,从而整理出更大的数据集。然而,无论是人工标注还是自动生成,这些数据集中的文字描述主要局限于声音事件,而忽略了详细信息(例如,声音事件的时序关系、音量、说话者身份以及出现次数等)。
技术实现思路
1、本专利技术实施例提供一种多事件音频-文本对生成方法、装置、电子设备及存储介质,用于至少解决上述技术问题之一。
2、第一方面,本专利技术实施例提供一种多事件音频-文本对生成方法,包括:
3、获取多个单事件音频片段;
4、确定将所述多个单事件音频片段合成多事件音频所需的配置数据;
5、根据所述配置数据将所述多个单事件音频片段合成目标多事件音频;
6、至少根据所述配置数据生成对应于所述目标多事件音频的合成文本。
7、在一些实施例中,获取多个单事件音频片段包括:
8、获取样本音频片段;
9、对所述样本音频片段进行文本音频声音事件检测,确定包含目标声音事件的目标音频片段;
...【技术保护点】
1.一种多事件音频-文本对生成方法,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取多个单事件音频片段包括:
3.根据权利要求1所述的方法,其特征在于,确定将所述多个单事件音频片段合成多事件音频所需的配置数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述配置数据类型包括:对应于所述多个单事件音频片段的时序关系、音量、说话者身份和出现次数中的至少一者。
5.根据权利要求4所述的方法,其特征在于,至少根据所述配置数据生成对应于所述目标多事件音频的合成文本包括:
6.根据权利要求1-5中任一项所述的方法,其特征在于,还包括对单事件音频片段进行聚类的步骤:
7.根据权利要求6所述的方法,其特征在于,还包括:
8.一种多事件音频-文本对生成装置,包括:
9.一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行权利要求1-7中任意一
10.一种存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现权利要求1-7中任意一项所述方法的步骤。
...【技术特征摘要】
1.一种多事件音频-文本对生成方法,包括:
2.根据权利要求1所述的方法,其特征在于,所述获取多个单事件音频片段包括:
3.根据权利要求1所述的方法,其特征在于,确定将所述多个单事件音频片段合成多事件音频所需的配置数据,包括:
4.根据权利要求3所述的方法,其特征在于,所述配置数据类型包括:对应于所述多个单事件音频片段的时序关系、音量、说话者身份和出现次数中的至少一者。
5.根据权利要求4所述的方法,其特征在于,至少根据所述配置数据生成对应于所述目标多事件音频的合成文本包括:
6.根据权利要求1-5中任一项...
【专利技术属性】
技术研发人员:俞凯,吴梦玥,徐薛楠,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。