System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统技术方案_技高网
当前位置: 首页 > 专利查询>浙江大学专利>正文

一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统技术方案

技术编号:43564117 阅读:15 留言:0更新日期:2024-12-06 17:35
本发明专利技术公开了一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统。本发明专利技术通过采集发声时的喉部振动信号解码声调与中文四声,采集发声时的唇部动点数据解码声韵母与音节,两者结果进行多模态融合,并将结果送入到大语言模型中,最终大语言模型输出识别文字。相较于传统的面颈部生理信号语音解码方法,本发明专利技术语音识别方法,具有适合长期监测,符合语言学的音节构成原理,受语料库影响小,泛化能力强,与单模态无法实现的单字符级别的识别精度与准确度等特点。

【技术实现步骤摘要】

本专利技术属于生物信号处理领域,特别涉及一种多模态喉部振动信号与唇部动点数据的语音解码识别方法及系统


技术介绍

1、语音是人类之间交流的最主要方式,也是一种基本的生存技能。语音识别是日常生活中的一种语音技术,能够帮助计算机理解说话者的意图,其发展极大促进了人与计算机之间的关系,利于实现自然高效的人机交互。

2、现有的常用语音解码方法是使用高密度电极阵列采集表面肌电信号,解码表面肌电信号实现语音识别。

3、但在实际的应用场景中,仍然存在问题与限制。表面肌电信号幅值微弱,获取难度较大,且易受肌肉状态、传感器位置等因素的影响,导致语音识别的准确度降低;高密度电极阵列的穿戴性和舒适性不足,采集信号的操作相对复杂繁杂,且不适合长期采集信号。而通道增多导致的数据维度的增多,极大提高了后续计算处理复杂度;现有的解码方法多依赖于标签对齐的训练数据,模型训练复杂,提高了语音解码的技术壁垒。同时,现有的解码方法无法实现对音调、中文四声进行解码,限制了解码的精度,目前无法实现单字符级别的准确解码。

4、因此,有必要提供一种用于解码语音的装置解决上述技术问题。

5、专利技术专利内容

6、本专利技术为解决公知技术中存在的技术问题而提供一种多模态喉部振动信号与唇部动点数据的语音解码识别方法。

7、一种多模态喉部振动信号与唇部动点数据的语音解码识别方法,包括如下步骤:

8、步骤1,采集喉部振动信号和唇部动点数据;

9、步骤2,对采集的喉部振动信号进行预处理,得到预处理后的喉部振动信号;

10、步骤3,将预处理后的喉部振动信号,输入到喉部振动信号识别模型中,提取喉部振动信号的时频域特征,并对提取的时频域特征进行处理并输出喉部振动信号的声调识别结果;

11、将唇部动点数据输入到唇部动点数据识别模型中,先使用conformer编码网络对唇部动点数据的时间特征与空间特征进行编码,然后通过transformer解码器和ctc解码器同时对编码内容进行解码,最后结合权重后通过softmax层用于输出唇部动点数据的音节识别结果;

12、步骤4,由喉部振动信号识别模型得到一组喉部振动信号的单个类别的声调识别结果,进一步得到喉部振动信号的声调各个类别的概率分布值;由唇部动点数据识别模型得到一组唇部动点数据的单个类别的音节识别结果,进一步得到唇部动点数据的音节各个类别的概率分布值;

13、步骤5,将喉部振动信号的声调各个类别的概率分布值与唇部动点数据的音节各个类别的概率分布值同步输入到多模态融合模型,多模态融合模型对声调与音节两个输入合并,多模态融合模型输出合成语音概率矩阵,合成完整的音节,送入到大语言模型中,大语言模型的输出结果即为最终的语音识别结果。

14、本专利技术中,相较于传统的基于面颈部生理信号的语音解码方式,步骤3与步骤4中的唇部动点数据解码方式,无需接触,喉部振动信号解码的接触相较于肌电信号解码,也具有更小的接触面积且无需加入导电凝胶,二者均有着更好的舒适性,适合语音的长期监测。现有的解码方法多依赖于标签对齐的训练数据语料库,模型训练复杂,提高了语音解码的技术壁垒。同时,现有的解码方法无法实现对音调、中文四声进行解码,限制了解码的精度,目前无法实现单字符级别的准确解码。而一种多模态喉部振动信号与唇部动点数据的语音解码识别方法,步骤5,符合语言学中,音素与音节的构成规律,使得该语音识别方法受语料库影响小,模型优化后可直接迁移。并且可实现传统面颈部语音解码方法实现不了的单字符级别的识别精度与更高的识别准确率。

15、步骤1中,所述的喉部振动信号包括:与发声相关的声带振动信号、与颈部的肌肉收缩时产生的振动信号;

16、所述的唇部动点数据包括:发声时嘴唇及嘴唇周围面部的运动数据。

17、步骤2中,所述的预处理包括信号放大、滤波与傅里叶变换。

18、步骤3中,所述的喉部振动信号识别模型包括:依次连接的时频域特征提取模块和支持向量机分类模块;

19、所述的时频域特征提取模块用于提取喉部振动信号的时频域特征;

20、所述的支持向量机分类模块用于处理喉部振动信号并输出喉部振动信号的声调识别结果。

21、步骤3中,所述的喉部振动信号的时频域特征包括零穿越次数。

22、步骤5中,所述的多模态融合模型为tfn(multimodal tensor fusion network)、lmf(low-rank multimodal fusion)、ptp(polynomial tensor pooling)等常见模型。

23、一种多模态喉部振动信号与唇部动点数据的语音解码识别系统,包括:

24、依次相连的喉部振动信号采集模块、喉部振动信号预处理模块、喉部振动信号识别模型;

25、依次相连的深度摄像头、唇部动点数据预处理模块、唇部动点数据识别模型;

26、多模态融合模型,所述的多模态融合模型的输入端均与喉部振动信号识别模型的输出端和唇部动点数据识别模型的输出端相连;

27、与所述多模态融合模型的输出端连接的大语言模型;

28、所述的喉部振动信号采集模块应用于采集与发声相关的声带振动与颈部的肌肉收缩时产生的喉部振动信号,所述的喉部振动信号预处理模块用于对采集的喉部振动信号进行预处理,所述的喉部振动信号识别模型用于对预处理喉的喉部振动信号进行特征提取、声调与中文四声的分类与语音预测;

29、所述的深度摄像头用于采集发声时嘴唇及嘴唇周围面部的运动数据,所述的唇部动点数据预处理模块用于对采集的唇部动点数据进行预处理,所述的唇部动点数据识别模型用于对预处理后的动点数据进行特征提取并进行音节的识别;

30、所述的多模态融合模型将对喉部振动识别模型识别的声调结果和唇部动点数据模型识别的音节的结果合成,并输出合成结果,送入到大语言模型中,输出最终的识别结果。

31、所述的喉部振动信号采集模块包含一个或多个信号采集通道,每个采集通道包括一个采集喉部振动信号的压电传感器。

32、所述的喉部振动信号预处理模块包括信号放大器、滤波器及傅里叶变换器。

33、本专利技术为解决公知技术中存在的技术问题所采取的技术方案是:一种多模态喉部振动信号与唇部动点数据的语音识别系统,包括:依次相连喉部振动信号采集系统、喉部振动信号预处理系统、喉部振动信号识别模型;依次相连的深度摄像头、唇部动点数据预处理系统、唇部动点数据识别模型;以及多模态融合模型,多模态融合模型的输入端分别与喉部振动信号识别模型和唇部动点数据识别模型的输出端相连;

34、喉部振动信号采集系统应用于采集与发声相关的声带振动与颈部的肌肉收缩时产生的喉部振动信号,喉部振动信号预处理系统用于对采集的喉部振动信号进行预处理,喉部振动信号识别模型用于对预处理喉的喉部振动信号进行特征提取、声调与中文四声的分类与语音预测;

35、本文档来自技高网...

【技术保护点】

1.一种多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤1中,所述的喉部振动信号包括:与发声相关的声带振动信号、与颈部的肌肉收缩时产生的振动信号;

3.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤2中,所述的预处理包括信号放大、滤波与傅里叶变换。

4.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤3中,所述的喉部振动信号识别模型包括:依次连接的时频域特征提取模块和支持向量机分类模块;

5.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤3中,所述的喉部振动信号的时频域特征包括零穿越次数。

6.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤5中,所述的多模态融合模型为TFN模型、LMF模型或PTP模型。

7.一种实现权利要求1~6任一项所述的语音解码识别方法的多模态喉部振动信号与唇部动点数据的语音解码识别系统,其特征在于,包括:

8.根据权利要求7所述的语音解码识别系统,其特征在于,所述的喉部振动信号采集模块包含一个或多个信号采集通道,每个采集通道包括一个采集喉部振动信号的压电传感器。

9.根据权利要求7所述的语音解码识别系统,其特征在于,所述的喉部振动信号预处理模块包括信号放大器、滤波器及傅里叶变换器。

...

【技术特征摘要】

1.一种多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤1中,所述的喉部振动信号包括:与发声相关的声带振动信号、与颈部的肌肉收缩时产生的振动信号;

3.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤2中,所述的预处理包括信号放大、滤波与傅里叶变换。

4.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的语音解码识别方法,其特征在于,步骤3中,所述的喉部振动信号识别模型包括:依次连接的时频域特征提取模块和支持向量机分类模块;

5.根据权利要求1所述的多模态喉部振动信号与唇部动点数据的...

【专利技术属性】
技术研发人员:李拓儒张凡钮罗涌汪蕊雪许世豪董树荣陈卫东张韶岷
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1