多任务音频处理方法技术

技术编号:39836638 阅读:24 留言:0更新日期:2023-12-29 16:20
本发明专利技术提供一种多任务音频处理方法

【技术实现步骤摘要】
多任务音频处理方法、系统、存储介质及电子设备


[0001]本专利技术属于音频处理的
,特别是涉及一种多任务音频处理方法

系统

存储介质及电子设备


技术介绍

[0002]音频处理任务一般包括:语种分类

人声端点检测

语音识别和语音翻译

现有技术中,针对每一种任务,都会独立设计一个方法或者神经网络模型来处理

例如,当进行语音识别时,需通过人声端点检测来判断说话的时间起点和时间终点,并通过语种分类模型判断语言类型,最后基于对应语言类型的语音识别模型进行识别

[0003]然而,不同的音频处理任务往往采用不同的网络结构设计,且部署多个模型就需要更多的硬件资源和更多的耗时,不利于实际的推广使用


技术实现思路

[0004]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种多任务音频处理方法

系统

存储介质及电子设备,能够兼容完成多本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种多任务音频处理方法,其特征在于,所述方法包括以下步骤:获取用于训练的音频;获取所述音频的标签信息;所述标签信息包括音频的语种信息

语音转文本方式

语音起止时间和音频对应文本信息,所述语音转文本方式包括语音翻译和语音转写;基于所述音频和所述标签信息训练多任务音频处理模型,以基于训练好的多任务音频处理模型获取待处理音频的标签信息;所述多任务音频处理模型包括依次连接的特征抽取层

编码层

解码层

全连接层和
softmax
;所述特征抽取层用于抽取音频的音频特征;所述编码层用于对所述音频特征进行编码,以获取编码特征;所述解码层用于对所述编码特征进行解码,以获取解码特征;所述全连接层和所述
softmax
用于基于所述解码特征输出所述音频的标签信息;所述编码层包括多个级联的编码模块,所述编码模块包括级联的自注意力机制和多层感知器;所述解码层包括多个级联的解码模块,所述解码模块包括级联的自注意力机制

交叉注意力机制和多层感知器
。2.
根据权利要求1所述的多任务音频处理方法,其特征在于:获取所述音频的标签信息包括以下步骤:设置标签起始字段;当所述音频不包含语音信息时,设置无语音字段和标签结束字段;所述标签信息仅包含所述标签起始字段

无语音字段和所述标签结束字段;当所述音频包含语音信息时,确定所述音频的语种信息;根据所述语种信息确定语音转文本方式;当所述音频均为语音信息时,设置无人声端点检测字段

获取音频对应文本信息并设置标签结束字段,则所述标签信息包含所述标签起始字段

语种信息

所述语音转文本方式

无人声端点检测字段

音频对应文本信息和所述标签结束字段;当所述音频包含多段语音信息时,确定每段语音信息的音频起始时间

音频对应文本信息和音频截止时间,并设置标签结束字段,则所述标签信息包含所述标签起始字段

所述语种信息

所述语音转文本方式

每段语音信息的音频起始时间

音频对应文本信息和音频截止时间以及所...

【专利技术属性】
技术研发人员:孔欧
申请(专利权)人:上海蜜度科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1