【技术实现步骤摘要】
本专利技术涉及音频描述,尤其是涉及一种自动音频描述方法及系统。
技术介绍
1、随着数字媒体内容的不断增加和扩展,自动音频描述成为了一个重要的
传统的音频处理和分析方法存在着识别准确性不高、人力成本高、处理效率低等问题,因此迫切需要一种更高效、准确的自动音频描述技术。随着机器学习和人工智能技术的进步,自编解码器模型逐渐被引入到音频处理领域。该技术利用深度学习架构,实现了从音频信号到文本描述的自动转换。通过整合语音识别、自然语言处理和模型优化算法,自编解码器模型能够自动分析音频数据,生成准确且具有语义信息的描述。
2、然而与自动图像描述的训练相比,在训练自动音频描述模型时,数据稀缺的问题始终存在。panns(pretrained audio neural networks,预训练音频神经网络)的出现一定程度地缓解了这一问题,因为panns主要针对单音频模态,而自动音频描述任务属于多模态任务,通过panns提取的音频特征在进入解码端前同文本模态特征没有建立任何联系,所以在传统的编码器-解码器架构中,直接进入解码端的音频嵌入
...【技术保护点】
1.一种自动音频描述方法,其特征在于,包括:
2.根据权利要求1所述的自动音频描述方法,其特征在于,所述预编码器包括第一编码器、第一词嵌入层和投影层;
3.根据权利要求2所述的自动音频描述方法,其特征在于,所述预编码器的训练步骤包括:利用音频角度的损失函数和音频描述角度的损失函数分别更新所述第一编码器和第一词嵌入层的参数,公式为:
4.根据权利要求1-3任一项所述自动音频描述方法,其特征在于,所述编码器-解码器模型包括第二编码器和解码器,所述编码器-解码器模型的训练步骤包括:
5.根据权利要求4所述的自动音频描述方法,其
...【技术特征摘要】
1.一种自动音频描述方法,其特征在于,包括:
2.根据权利要求1所述的自动音频描述方法,其特征在于,所述预编码器包括第一编码器、第一词嵌入层和投影层;
3.根据权利要求2所述的自动音频描述方法,其特征在于,所述预编码器的训练步骤包括:利用音频角度的损失函数和音频描述角度的损失函数分别更新所述第一编码器和第一词嵌入层的参数,公式为:
4.根据权利要求1-3任一项所述自动音频描述方法,其特征在于,所述编码器-解码器模型包括第二编码器和解码器,所述编码器-解码器模型的训练步骤包括:
5.根据权利要求4所述的自动音频描述方法,其特征在于,所述编码器-解码器模型的处理步骤...
【专利技术属性】
技术研发人员:侯俊,杨宇,陆鹏威,王凯,何明坤,卢钰情,
申请(专利权)人:中电智恒信息科技服务有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。