用于多模态数据的语音识别方法及装置制造方法及图纸

技术编号:39746337 阅读:4 留言:0更新日期:2023-12-17 23:45
本申请涉及语音处理技术领域,公开一种用于多模态数据的语音识别方法,包括:获得多模态数据关联的语音向量;根据语音向量及循环编码模型,获得目标编码语音;根据语音向量

【技术实现步骤摘要】
用于多模态数据的语音识别方法及装置、家电设备、介质


[0001]本申请涉及语音处理
,例如涉及一种用于多模态数据的语音识别方法及装置

家电设备

介质


技术介绍

[0002]目前,随着多模态语音降噪技术

语音识别技术和信号处理技术的快速发展,多模态语音降噪成为工业界的研究热点

在智能家居场景下,多模态数据音视频分析处理后获得语音的质量的优劣,对后续的语音识别产生直接的影响

因此,针对智能家居场景,如何从多模态数据中获得高质量的语音,成为当前亟需解决的技术难题

[0003]相关技术公开一种基于深宽度联合神经网络的多模态数据知识信息提取方法,包括以下步骤:
1)
收集人员对智能制造工厂所产生的多模态数据,对数据进行预处理,将处理后的数据样本进行存储;
2)
对原始多模态数据进行细分建表,分别将多模态数据处理成单模态数据特征表;
3)
利用深宽度联合网络对多模态数据特征表进行特征提取,得到对应的高层抽象特征知识,从而实现对多模态数据知识信息的提取

相关技术发挥了深度学习在提取模态数据特征中自主学习高层抽象代表性特征的优势以及宽度学习快速训练模型参数,达到模型快速更新的能力以适应工业界的需要,提高多模态数据领域特征提取的有效性和时效性

[0004]在实现本公开实施例的过程中,发现相关技术中至少存在如下问题
[0005]相关技术公开多模态数据知识信息提取方法对多模态数据的数据质量和数据量具有一定要求,增加了数据质量的分析难度以及成本,从而影响多模态数据的语音识别的质量以及语音识别的效率

[0006]需要说明的是,在上述
技术介绍
部分公开的信息仅用于加强对本申请的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息


技术实现思路

[0007]为了对披露的实施例的一些方面有基本的理解,下面给出了简单的概括

所述概括不是泛泛评述,也不是要确定关键
/
重要组成元素或描绘这些实施例的保护范围,而是作为后面的详细说明的序言

[0008]本公开实施例提供了一种用于多模态数据的语音识别方法

装置

家电设备和介质,以对多模态数据实现高质量的语音识别,并提升语音识别的效率

[0009]在一些实施例中,所述方法包括:获得多模态数据关联的语音向量;根据语音向量及循环编码模型,获得目标编码语音;根据语音向量

目标编码语音及循环解码模型,获得语音

[0010]在一些实施例中,循环编码模型包括多个级联连接的编码器,
N
表示级联的编码器数量,所述根据语音向量及循环编码模型,获得目标编码语音,包括:输入语音向量至第
i
编码器,获得第
i
中间编码语音,
i
的初始值为1;在
i
小于
N
的情况下,输入第
i
中间编码语音至

i+1
编码器,获得第
i+1
中间编码语音并更新
i

i+1
;在
i
等于
N
的情况下,确定第
i
中间编码语音作为目标编码语音

[0011]在一些实施例中,所述编码器包括:级联设置的
Transformer
模型中的多头注意力机制模块和批量归一化模块

[0012]在一些实施例中,循环解码模型包括多个级联连接的解码器,且解码器数量为
M

M
为大于2的整数,所述根据语音向量

目标编码语音及循环解码模型,获得语音,包括:输入目标输入向量和目标编码语音至循环解码模型的第
j
解码器,获得第
j
中间解码语音,
j
的初始值为1;在
j
小于
M
的情况下,输入目标编码语音和第
j
中间解码语音至第
j+1
解码器,获得第
j+1
中间解码语音并更新
j

j+1
;在
j
等于
M
的情况下,确定第
j
中间解码语音作为语音

[0013]在一些实施例中,按照以下方式确定目标输入向量以及解码器:获取多模态数据关联的语音时长;在语音时长表示短时音的情况下,选择嵌入向量作为目标输入向量,并,选取级联设置的
Transformer
模型中的多头注意力机制模块和批量归一化模块作为解码器;在语音时长表示非短时音的情况下,选择语音向量作为目标输入向量,并,选取级联设置的卷积模型和
Transformer
模型中的多头注意力机制模块

批量归一化模块作为解码器

[0014]在一些实施例中,所述卷积模型的获取包括:将输入向量输入至卷积块进行有效特征提取,获得有效特征向量;分别输入有效特征向量至第一卷积神经网络和第二卷积神经网络进行高层特征提取,获得第一高层特征向量和第二高层特征向量;输入第一高层特征向量和第二高层特征向量至第三卷积神经网络进行特征融合,获得融合特征向量,以将融合特征向量输入至多头注意力机制模块

[0015]可选地,在
j
=1时,输入向量包括目标编码语音以及语音向量;在
j>2
时,输入向量包括目标编码语音以及第
j
‑1中间解码语音

[0016]在一些实施例中,所述多模态数据包括音视频数据,所述获得多模态数据关联的语音向量,包括:对多模态数据中的音视频数据进行语音预处理,获得有效语音数据;对有效语音数据进行语音特征处理,获得语音特征;对语音特征进行向量嵌入处理,获得嵌入向量;对嵌入向量进行位置编码处理,获得语音向量

[0017]在一些实施例中,还包括:对语音进行文本识别处理,获得文本

[0018]在一些实施例中,所述装置包括:包括处理器和存储有程序指令的存储器,所述处理器被配置为在运行所述程序指令时,执行如上述的用于多模态数据的语音识别方法

[0019]在一些实施例中,所述家电设备,包括:设备本体;如上述的用于多模态数据的语音识别装置,被安装于所述设备本体

[0020]在一些实施例中,所述存储介质,存储有程序指令,所述程序指令在运行时,执行如上述的用于多模态数据的语音识别方法
[0021]本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种用于多模态数据的语音识别方法,其特征在于,包括:获得多模态数据关联的语音向量;根据语音向量及循环编码模型,获得目标编码语音;根据语音向量

目标编码语音及循环解码模型,获得语音
。2.
根据权利要求1所述的方法,其特征在于,循环编码模型包括多个级联连接的编码器,
N
表示级联的编码器数量,所述根据语音向量及循环编码模型,获得目标编码语音,包括:输入语音向量至第
i
编码器,获得第
i
中间编码语音,
i
的初始值为1;在
i
小于
N
的情况下,输入第
i
中间编码语音至第
i+1
编码器,获得第
i+1
中间编码语音并更新
i

i+1
;在
i
等于
N
的情况下,确定第
i
中间编码语音作为目标编码语音
。3.
根据权利要求2所述的方法,其特征在于,所述编码器包括:级联设置的
Transformer
模型中的多头注意力机制模块和批量归一化模块
。4.
根据权利要求2所述的方法,其特征在于,循环解码模型包括多个级联连接的解码器,且解码器数量为
M

M
为大于2的整数,所述根据语音向量

目标编码语音及循环解码模型,获得语音,包括:输入目标输入向量和目标编码语音至循环解码模型的第
j
解码器,获得第
j
中间解码语音,
j
的初始值为1;在
j
小于
M
的情况下,输入目标编码语音和第
j
中间解码语音至第
j+1
解码器,获得第
j+1
中间解码语音并更新
j

j+1
;在
j
等于
...

【专利技术属性】
技术研发人员:曾谁飞孔令磊张景瑞李敏刘卫强谢充
申请(专利权)人:青岛海尔智能技术研发有限公司海尔智家股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1