【技术实现步骤摘要】
多任务音频处理方法、系统、存储介质及电子设备
[0001]本专利技术属于音频处理的
,特别是涉及一种多任务音频处理方法
、
系统
、
存储介质及电子设备
。
技术介绍
[0002]音频处理任务一般包括:语种分类
、
人声端点检测
、
语音识别和语音翻译
。
现有技术中,针对每一种任务,都会独立设计一个方法或者神经网络模型来处理
。
例如,当进行语音识别时,需通过人声端点检测来判断说话的时间起点和时间终点,并通过语种分类模型判断语言类型,最后基于对应语言类型的语音识别模型进行识别
。
[0003]然而,不同的音频处理任务往往采用不同的网络结构设计,且部署多个模型就需要更多的硬件资源和更多的耗时,不利于实际的推广使用
。
技术实现思路
[0004]鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种多任务音频处理方法
、
系统
、
存储介质及电子 ...
【技术保护点】
【技术特征摘要】
1.
一种多任务音频处理方法,其特征在于,所述方法包括以下步骤:获取用于训练的音频;获取所述音频的标签信息;所述标签信息包括音频的语种信息
、
语音转文本方式
、
语音起止时间和音频对应文本信息,所述语音转文本方式包括语音翻译和语音转写;基于所述音频和所述标签信息训练多任务音频处理模型,以基于训练好的多任务音频处理模型获取待处理音频的标签信息;所述多任务音频处理模型包括依次连接的特征抽取层
、
编码层
、
解码层
、
全连接层和
softmax
;所述特征抽取层用于抽取音频的音频特征;所述编码层用于对所述音频特征进行编码,以获取编码特征;所述解码层用于对所述编码特征进行解码,以获取解码特征;所述全连接层和所述
softmax
用于基于所述解码特征输出所述音频的标签信息;所述编码层包括多个级联的编码模块,所述编码模块包括级联的自注意力机制和多层感知器;所述解码层包括多个级联的解码模块,所述解码模块包括级联的自注意力机制
、
交叉注意力机制和多层感知器
。2.
根据权利要求1所述的多任务音频处理方法,其特征在于:获取所述音频的标签信息包括以下步骤:设置标签起始字段;当所述音频不包含语音信息时,设置无语音字段和标签结束字段;所述标签信息仅包含所述标签起始字段
、
无语音字段和所述标签结束字段;当所述音频包含语音信息时,确定所述音频的语种信息;根据所述语种信息确定语音转文本方式;当所述音频均为语音信息时,设置无人声端点检测字段
、
获取音频对应文本信息并设置标签结束字段,则所述标签信息包含所述标签起始字段
、
语种信息
、
所述语音转文本方式
、
无人声端点检测字段
、
音频对应文本信息和所述标签结束字段;当所述音频包含多段语音信息时,确定每段语音信息的音频起始时间
、
音频对应文本信息和音频截止时间,并设置标签结束字段,则所述标签信息包含所述标签起始字段
、
所述语种信息
、
所述语音转文本方式
、
每段语音信息的音频起始时间
、
音频对应文本信息和音频截止时间以及所...
【专利技术属性】
技术研发人员:孔欧,
申请(专利权)人:上海蜜度科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。