【技术实现步骤摘要】
用于多模态数据的语音识别方法及装置、家电设备、介质
[0001]本申请涉及语音处理
,例如涉及一种用于多模态数据的语音识别方法及装置
、
家电设备
、
介质
。
技术介绍
[0002]目前,随着多模态语音降噪技术
、
语音识别技术和信号处理技术的快速发展,多模态语音降噪成为工业界的研究热点
。
在智能家居场景下,多模态数据音视频分析处理后获得语音的质量的优劣,对后续的语音识别产生直接的影响
。
因此,针对智能家居场景,如何从多模态数据中获得高质量的语音,成为当前亟需解决的技术难题
。
[0003]相关技术公开一种基于深宽度联合神经网络的多模态数据知识信息提取方法,包括以下步骤:
1)
收集人员对智能制造工厂所产生的多模态数据,对数据进行预处理,将处理后的数据样本进行存储;
2)
对原始多模态数据进行细分建表,分别将多模态数据处理成单模态数据特征表;
3)
利用深宽度联合网络对多模态数据特征表进行特征提取,得到对应的高层抽象特征知识,从而实现对多模态数据知识信息的提取
。
相关技术发挥了深度学习在提取模态数据特征中自主学习高层抽象代表性特征的优势以及宽度学习快速训练模型参数,达到模型快速更新的能力以适应工业界的需要,提高多模态数据领域特征提取的有效性和时效性
。
[0004]在实现本公开实施例的过程中,发现相关技术中至少存在如下问题 ...
【技术保护点】
【技术特征摘要】
1.
一种用于多模态数据的语音识别方法,其特征在于,包括:获得多模态数据关联的语音向量;根据语音向量及循环编码模型,获得目标编码语音;根据语音向量
、
目标编码语音及循环解码模型,获得语音
。2.
根据权利要求1所述的方法,其特征在于,循环编码模型包括多个级联连接的编码器,
N
表示级联的编码器数量,所述根据语音向量及循环编码模型,获得目标编码语音,包括:输入语音向量至第
i
编码器,获得第
i
中间编码语音,
i
的初始值为1;在
i
小于
N
的情况下,输入第
i
中间编码语音至第
i+1
编码器,获得第
i+1
中间编码语音并更新
i
为
i+1
;在
i
等于
N
的情况下,确定第
i
中间编码语音作为目标编码语音
。3.
根据权利要求2所述的方法,其特征在于,所述编码器包括:级联设置的
Transformer
模型中的多头注意力机制模块和批量归一化模块
。4.
根据权利要求2所述的方法,其特征在于,循环解码模型包括多个级联连接的解码器,且解码器数量为
M
且
M
为大于2的整数,所述根据语音向量
、
目标编码语音及循环解码模型,获得语音,包括:输入目标输入向量和目标编码语音至循环解码模型的第
j
解码器,获得第
j
中间解码语音,
j
的初始值为1;在
j
小于
M
的情况下,输入目标编码语音和第
j
中间解码语音至第
j+1
解码器,获得第
j+1
中间解码语音并更新
j
为
j+1
;在
j
等于
...
【专利技术属性】
技术研发人员:曾谁飞,孔令磊,张景瑞,李敏,刘卫强,谢充,
申请(专利权)人:青岛海尔智能技术研发有限公司海尔智家股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。