基于视觉言语运动特征的自动化构音障碍评估方法及系统技术方案

技术编号：41153725 阅读：6 留言：0更新日期：2024-04-30 18:19

本发明专利技术公开了一种基于视觉言语运动特征的自动化构音障碍评估方法及系统。获取表达多个单元音时的视频流数据；对每一帧图像中的人脸图像进行归一化后进行人脸特征点标定；根据视频流数据的时间顺序和标定的人脸特征点，提取出视频流数据中唇部和下颌的运动轨迹序列；按照预设的检测点和固定点，根据运动轨迹序列计算每个检测点到固定点的距离，形成距离序列；将形成的距离序列输入训练后的自动化构音障碍评估模型中，进行构音概率预测，得到构音障碍评估结果。本发明专利技术采用更加客观、全面、细致的自动化评价指标来辅助医生的诊断评估工作，为后续语音治疗师对构音障碍患者制定进一步的语音康复治疗方案、病情监控等，提供可靠、便捷的方法。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及构音障碍，尤其涉及一种基于视觉言语运动特征的自动化构音障碍评估方法及系统。

技术介绍

1、构音障碍是指参与构音的器官，如肺、声带、软腭、舌、下颌、口、唇，它们的肌肉系统及神经系统出现异常，发生病变导致无法准确的控制其运动，从而表现出言语运动功能障碍。造成构音障碍的原因多种多样，常见于卒中后、脑瘫、脑肿瘤、重症肌无力、小脑损伤、帕金森病、多发性硬化等病症中，患者往往表现出发音不准确、发声时间缓慢、音调和韵律混乱等特点，这会直接影响患者的日常交流和生活质量。根据调查数据显示，全国言语障碍人口仍处于上升趋势。因此为了提升言语障碍人群在语音康复评估阶段的效果，对构音障碍进行系统性的分析研究是十分必要的。

2、目前临床上，医生多采用主观方法来评估构音障碍的严重程度，主观评价一般由治疗师依据自身的临床经验，或者使用标准化评分量表作为辅助工具，来评价病人的语音可懂度。然而这些评估方法极大地依赖于治疗师的临床经验和主观判断，导致影响因素多，存在诊断结果不稳定、准确性低等问题。随着深度学习以及信号处理等技术的快速发展，构音障碍的评估工作取得了一定的研究进展，目前对于构音障碍自动化评估的技术研究主要围绕两个方面：特征集的表示和提取、评估模型的设计和优化。因此本专利技术旨在利用视频数据，精准的挖掘模态内部的关联特征信息，搭建起基于视觉言语运动特征的构音障碍客观评估模型，为构音障碍的医学诊断和患者的康复治疗提供可靠的数据和技术支持。

技术实现思路

1、因此，本专利技术的目的在于提

2、为了实现上述目的，本专利技术提供的一种基于视觉言语运动特征的自动化构音障碍评估方法，包括以下步骤：

3、s1、获取表达多个单元音时的视频流数据；

4、s2、对视频流数据中每一帧图像中的人脸图像进行归一化；

5、s3、对归一化后的人脸图像，进行人脸特征点标定；

6、s4、根据视频流数据的时间顺序和标定的人脸特征点，提取出视频流数据中唇部和下颌的运动轨迹序列；

7、s5、在每一帧图像中，根据运动轨迹序列，按照预设的检测点和固定点，计算每个检测点到固定点的距离，形成距离序列；

8、s6、将形成的距离序列输入训练后的自动化构音障碍评估模型中，所述自动化构音障碍评估模型包括特征提取部分和分类评估部分；

9、所述特征提取部分用于将距离序列，按照选取的不同元音，形成每个单元音对应的特征序列；

10、所述分类评估部分用于将输入的特征序列提取特征矩阵，将每个单元音音节数据的特征矩阵进行拼接并进行构音概率预测，得到构音障碍评估结果。

11、进一步优选的，在s1中，还包括对获取的视频流数据中的每一帧图像进行人脸检测，确定最大的人脸检测框，按照最大的人脸检测框，对视频流数据中的每一帧图像进行检测，获取每一帧的人脸图像。

12、进一步优选的，在s3中，对归一化后的人脸图像，进行人脸特征点标定；包括：对人脸图像中额部、眼部、鼻部、唇部、下颌部的68个特征点进行标定。

13、进一步优选的，在s5中，所述预设的检测点和固定点包括：将眼部和鼻部的13个点，作为固定点；将唇部和下颌部的31个点，作为检测点。

14、进一步优选的，在s5中，所述根据运动轨迹序列计算每个检测点到固定点的距离时，采用如下公式（1）计算：

15、公式（1）

16、其中，为第i个特征点横坐标，为第i个特征点纵坐标，为第i个检测点横坐标，为第i个检测点纵坐标，;为第j个固定点横坐标，为第j个固定点纵坐标,。

17、进一步优选的，在s4中，所述提取出视频流数据中唇部和下颌的运动轨迹序列，还包括采用如下公式（2）所示的基于 k近邻的异常点处理算法检测运动轨迹序列中的异常点；

18、公式（2）

19、其中，是与最近邻 k 个点的均值，为k个点的方差，为常数；当出现一个异常点时，将最近邻的k个点均值代替原来的值，修复异常点。

20、进一步优选的，在s6中，将形成的距离序列，按照如下公式（3）进行统一帧长计算；

21、公式（3）

22、其中，s表示要统一的帧长，l表示原始距离序列的长度，表示距离序列的最后一帧数据，表示原始的距离序列，表示统一帧长后的距离序列，拼接。

23、本专利技术还提供一种基于视觉言语运动特征的自动化构音障碍评估系统，包括：数据获取模块，用于获取表达多个单元音时的视频流数据；

24、数据处理模块，用于对视频流数据中每一帧图像中的人脸图像进行归一化；

25、对归一化后的人脸图像，进行人脸特征点标定；

26、数据提取模块，用于根据视频流数据的时间顺序和标定的人脸特征点，提取出视频流数据中唇部和下颌的运动轨迹序列；按照预设的检测点和固定点，根据运动轨迹序列计算每个检测点到固定点的距离，形成距离序列；

27、自动化构音障碍评估模型，包括特征提取部分和分类评估部分；所述特征提取部分用于将形成的距离序列按照选取的不同元音，形成每个单元音对应的特征序列；所述分类评估部分用于将输入的特征序列提取特征矩阵，将每个单元音音节数据的特征矩阵进行拼接并进行构音概率预测，得到构音障碍评估结果。

28、本专利技术还提供一种电子设备，包括处理器和存储器，所述存储器，用于存储所述处理器可执行指令；所述处理器用于执行存储的指令，实现上述基于视觉言语运动特征的自动化构音障碍评估方法的步骤。

29、本专利技术还提供一种计算机存储介质，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如上述基于视觉言语运动特征的自动化构音障碍评估方法的步骤。

30、本申请公开的基于视觉言语运动特征的自动化构音障碍评估方法及系统，区别于传统的基于音频的构音障碍严重程度评估方法，至少具有以下优点：

31、（1）本专利技术围绕构音障碍的视频数据，挖掘该模态下深度的视觉信息，提升了视觉模态下的构音障碍严重程度评估效果，为多模态构音障碍的研究提供参考。

32、（2）本专利技术在模型的数据输入阶段，设计了一种以不同单元音音节为单位的数据组织方式，使得模型将独立处理每种单元音的音节数据。针对中文构音障碍的问题，消除了说话人发出不同的言语内容导致的类内差异大的问题。...

【技术保护点】

1.一种基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在S1中，还包括对获取的视频流数据中的每一帧图像进行人脸检测，确定最大的人脸检测框，按照最大的人脸检测框，对视频流数据中的每一帧图像进行检测，获取每一帧的人脸图像。

3.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在S3中，对归一化后的人脸图像，进行人脸特征点标定；包括：对人脸图像中额部、眼部、鼻部、唇部、下颌部的68个特征点进行标定。

4.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在S5中，所述预设的检测点和固定点包括：将眼部和鼻部的13个点，作为固定点；将唇部和下颌部的31个点，作为检测点。

5.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在S5中，所述根据运动轨迹序列计算每个检测点到固定点的距离时，采用如下公式（1）计算：

6.根据权利要求1所述的基于

7.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在S6中，将形成的距离序列，按照如下公式（3）进行统一帧长计算；

8.一种基于视觉言语运动特征的自动化构音障碍评估系统，其特征在于，包括

9.一种电子设备，其特征在于，包括处理器和存储器，所述存储器，用于存储所述处理器可执行指令；所述处理器用于执行存储的指令，实现上述权利要求1-7中任一项所述的基于视觉言语运动特征的自动化构音障碍评估方法的步骤。

10.一种计算机存储介质，其特征在于，所述计算机存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-7中任一项所述基于视觉言语运动特征的自动化构音障碍评估方法的步骤。

...

【技术特征摘要】

1.一种基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在s1中，还包括对获取的视频流数据中的每一帧图像进行人脸检测，确定最大的人脸检测框，按照最大的人脸检测框，对视频流数据中的每一帧图像进行检测，获取每一帧的人脸图像。

3.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在s3中，对归一化后的人脸图像，进行人脸特征点标定；包括：对人脸图像中额部、眼部、鼻部、唇部、下颌部的68个特征点进行标定。

4.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在s5中，所述预设的检测点和固定点包括：将眼部和鼻部的13个点，作为固定点；将唇部和下颌部的31个点，作为检测点。

5.根据权利要求1所述的基于视觉言语运动特征的自动化构音障碍评估方法，其特征在于，在s5中，所述根据运动轨迹序列计算每个检测点到固定点的距离时，采用...

【专利技术属性】
技术研发人员：魏建国，曹笛，李威，路文焕，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人