一种自动音频描述方法及系统技术方案

技术编号：44573383 阅读：12 留言：0更新日期：2025-03-11 14:33

本发明专利技术提供了一种自动音频描述方法及系统，其方法包括：获取实时音频数据；将所述实时音频数据输入预先构建的编码器‑解码器模型，得到音频描述结果；所述编码器‑解码器模型的构建包括：获取历史音频数据和历史音频描述；将所述历史音频数据和历史音频描述作为训练样本，输入预编码器中，确定所述预编码器的参数，将所述预编码器的参数作为编码器‑解码器模型的初始参数进行训练；通过将原始Compact BERT模型中的双向注意力机制替换为单向注意力机制，在掩码多头注意力层后添加交叉注意力层，在前向反馈层后依次添加线性层和Softmax层，得到所述编码器‑解码器模型中的解码器。本发明专利技术将Compact BERT模型融入到解码器中，提高了音频描述生成的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及音频描述，尤其是涉及一种自动音频描述方法及系统。

技术介绍

1、随着数字媒体内容的不断增加和扩展，自动音频描述成为了一个重要的
传统的音频处理和分析方法存在着识别准确性不高、人力成本高、处理效率低等问题，因此迫切需要一种更高效、准确的自动音频描述技术。随着机器学习和人工智能技术的进步，自编解码器模型逐渐被引入到音频处理领域。该技术利用深度学习架构，实现了从音频信号到文本描述的自动转换。通过整合语音识别、自然语言处理和模型优化算法，自编解码器模型能够自动分析音频数据，生成准确且具有语义信息的描述。

2、然而与自动图像描述的训练相比，在训练自动音频描述模型时，数据稀缺的问题始终存在。panns（pretrained audio neural networks，预训练音频神经网络）的出现一定程度地缓解了这一问题，因为panns主要针对单音频模态，而自动音频描述任务属于多模态任务，通过panns提取的音频特征在进入解码端前同文本模态特征没有建立任何联系，所以在传统的编码器－解码器架构中，直接进入解码端的音频嵌入...

【技术保护点】

1.一种自动音频描述方法，其特征在于，包括：

2.根据权利要求1所述的自动音频描述方法，其特征在于，所述预编码器包括第一编码器、第一词嵌入层和投影层；

3.根据权利要求2所述的自动音频描述方法，其特征在于，所述预编码器的训练步骤包括：利用音频角度的损失函数和音频描述角度的损失函数分别更新所述第一编码器和第一词嵌入层的参数，公式为：

4.根据权利要求1-3任一项所述自动音频描述方法，其特征在于，所述编码器-解码器模型包括第二编码器和解码器，所述编码器-解码器模型的训练步骤包括：

5.根据权利要求4所述的自动音频描述方法，其特征在于，所述编码器...

【技术特征摘要】

1.一种自动音频描述方法，其特征在于，包括：

2.根据权利要求1所述的自动音频描述方法，其特征在于，所述预编码器包括第一编码器、第一词嵌入层和投影层；

5.根据权利要求4所述的自动音频描述方法，其特征在于，所述编码器-解码器模型的处理步骤...

【专利技术属性】
技术研发人员：侯俊，杨宇，陆鹏威，王凯，何明坤，卢钰情，
申请(专利权)人：中电智恒信息科技服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人