多任务音频处理方法技术

技术编号：39836638 阅读：24 留言：0更新日期：2023-12-29 16:20

本发明专利技术提供一种多任务音频处理方法

全部详细技术资料下载

【技术实现步骤摘要】
多任务音频处理方法、系统、存储介质及电子设备

[0001]本专利技术属于音频处理的
，特别是涉及一种多任务音频处理方法
、
系统
、
存储介质及电子设备
。

技术介绍

[0002]音频处理任务一般包括：语种分类
、
人声端点检测
、
语音识别和语音翻译
。
现有技术中，针对每一种任务，都会独立设计一个方法或者神经网络模型来处理
。
例如，当进行语音识别时，需通过人声端点检测来判断说话的时间起点和时间终点，并通过语种分类模型判断语言类型，最后基于对应语言类型的语音识别模型进行识别
。
[0003]然而，不同的音频处理任务往往采用不同的网络结构设计，且部署多个模型就需要更多的硬件资源和更多的耗时，不利于实际的推广使用
。

技术实现思路

[0004]鉴于以上所述现有技术的缺点，本专利技术的目的在于提供一种多任务音频处理方法
、
系统
、
存储介质及电子...

【技术保护点】

【技术特征摘要】
1.
一种多任务音频处理方法，其特征在于，所述方法包括以下步骤：获取用于训练的音频；获取所述音频的标签信息；所述标签信息包括音频的语种信息
、
语音转文本方式
、
语音起止时间和音频对应文本信息，所述语音转文本方式包括语音翻译和语音转写；基于所述音频和所述标签信息训练多任务音频处理模型，以基于训练好的多任务音频处理模型获取待处理音频的标签信息；所述多任务音频处理模型包括依次连接的特征抽取层
、
编码层
、
解码层
、
全连接层和
softmax
；所述特征抽取层用于抽取音频的音频特征；所述编码层用于对所述音频特征进行编码，以获取编码特征；所述解码层用于对所述编码特征进行解码，以获取解码特征；所述全连接层和所述
softmax
用于基于所述解码特征输出所述音频的标签信息；所述编码层包括多个级联的编码模块，所述编码模块包括级联的自注意力机制和多层感知器；所述解码层包括多个级联的解码模块，所述解码模块包括级联的自注意力机制
、
交叉注意力机制和多层感知器
。2.
根据权利要求1所述的多任务音频处理方法，其特征在于：获取所述音频的标签信息包括以下步骤：设置标签起始字段；当所述音频不包含语音信息时，设置无语音字段和标签结束字段；所述标签信息仅包含所述标签起始字段
、
无语音字段和所述标签结束字段；当所述音频包含语音信息时，确定所述音频的语种信息；根据所述语种信息确定语音转文本方式；当所述音频均为语音信息时，设置无人声端点检测字段
、
获取音频对应文本信息并设置标签结束字段，则所述标签信息包含所述标签起始字段
、
语种信息
、
所述语音转文本方式
、
无人声端点检测字段
、
音频对应文本信息和所述标签结束字段；当所述音频包含多段语音信息时，确定每段语音信息的音频起始时间
、
音频对应文本信息和音频截止时间，并设置标签结束字段，则所述标签信息包含所述标签起始字段
、
所述语种信息
、
所述语音转文本方式
、
每段语音信息的音频起始时间
、
音频对应文本信息和音频截止时间以及所...

【专利技术属性】
技术研发人员：孔欧，
申请(专利权)人：上海蜜度科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人