【技术实现步骤摘要】
音频分离的方法、装置、设备、存储介质和程序产品
[0001]本申请涉及音频处理领域,特别涉及一种音频分离的方法、装置、设备、存储介质和程序产品。
技术介绍
[0002]音频识别技术是让机器将人们的声音信号转换为相应的文本或命令的技术。近年来,随着人工智能的发展,音频识别技术被越来越多地应用于家电、汽车、医疗、消费电子产品等领域。
[0003]目前,音频识别的过程一般是将设备采集到的音频数据输入音频识别模型,识别出音频数据中包含的人声,输出文本或命令。
[0004]然而,当音频数据中包含有多个不同人的声音时,音频识别模型无法区分出不同人的声音,从而无法输出每个人声对应的文本或命令,导致音频识别准确率低。
技术实现思路
[0005]本申请提供了一种音频分离的方法、装置、设备、存储介质和程序产品,能够提高音频识别的准确率。
[0006]第一方面,提供了音频分离的方法,所述方法包括:获取采集的音频数据;基于所述音频数据和经过训练的音频分离模型,确定多个子音频数据;基于所述多个子音频数据和经过训 ...
【技术保护点】
【技术特征摘要】
1.一种音频分离的方法,其特征在于,所述方法包括:获取采集的音频数据;基于所述音频数据和经过训练的音频分离模型,确定多个子音频数据;基于所述多个子音频数据和经过训练的音频分组模型,确定每个子音频数据对应的分组信息,其中,所述分组信息用于指示对应的子音频数据与至少一个声源对象的关联关系;基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据。2.根据权利要求1所述的方法,其特征在于,所述子音频数据对应的分组信息包括所述子音频数据关联的声源对象;每个声源对象关联有多个子音频数据;所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据,包括:将每个声源对象关联的多个子音频数据进行合成,得到每个声源对象对应的声源对象音频数据。3.根据权利要求1所述的方法,其特征在于,所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度;所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据,包括:确定每个子音频数据对应的关联度最高的声源对象,分别作为每个子音频数据关联的声源对象;每个声源对象关联有多个子音频数据;将每个声源对象关联的多个子音频数据进行合成,得到每个声源对象对应的声源对象音频数据。4.根据权利要求1所述的方法,其特征在于,所述子音频数据对应的分组信息包括所述子音频数据与至少一个声源对象的关联度;所述基于所述每个子音频数据和所述每个子音频数据对应的分组信息,确定每个声源对象对应的声源对象音频数据,包括:对于每个声源对象,确定与所述声源对象存在关联度的多个关联子音频数据,基于所述多个关联子音频数据、以及每个关联子音频数据与所述声源对象的关联度,确定所述声...
【专利技术属性】
技术研发人员:罗艺,王珺,林永业,李凯,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。