一种基于语音识别的构音障碍自动评估系统和方法技术方案

技术编号:28750699 阅读:19 留言:0更新日期:2021-06-09 10:14
本发明专利技术提供一种基于语音识别的构音障碍自动评估系统和方法。该系统包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元,特征拼接单元与第一特征提取单元、第二特征提取单元、多层感知机具有通信连接,评估单元与多层感知机具有通信连接,其中第一特征提取单元用于提取传统的句子级别的声学特征;第二特征提取单元提取帧级别的音频标注和帧音素-概率的关系;特征拼接单元将第一特征提取的特征和第二特征提取单元提取的特征进行拼接;多层感知机基于拼接特征输出个体句子障碍程度和相应的预测概率;评估单元利用个体句子的预测概率信息得到总体评估结果。本发明专利技术能提高构音障碍估计的准确性和稳定性。性。性。

【技术实现步骤摘要】
一种基于语音识别的构音障碍自动评估系统和方法


[0001]本专利技术涉及构音障碍评估
,尤其涉及一种基于语音识别的构音障碍自动评估系统和方法。

技术介绍

[0002]构音障碍表现为说话含糊不清,不流利,发音不准,音量、韵律异常等。医生通常经过发音器官检查和言语评估来确认是否患有构音障碍以及病理程度。对学龄前儿童,上述表现可以通过语言训练来改善和治愈。因医生资源、时间有限以及互联网和移动设备的广泛使用,促使构音障碍的语言训练得以在移动设备应用程序(app)上进行。移动端语言训练效果的评估结果,能为使用者提供及时反馈,同时为训练程序设计者提供有利于个性化设计训练课程的重要信息。
[0003]目前有效的评估方法主要以听觉感知的主观方法为主,客观分析方法缺少关注,没有完备的构音障碍自动评估方案。已有的构音障碍识别方案是提取构音障碍语音的共振峰来计算声学参数,计算器官运动数据的舌唇偏移位移,再对声学参数和器官运动数据做相关性计算来识别构音障碍。还有用集成在OpenSMILE工具的语音分析eGeMAPS声学参数集,被用来分析其他语音相关的疾病,如失语症语音评估,但目前还没有用在构音障碍语音分析评估的案例。
[0004]在学术研究上,对于构音障碍语音的评估主要集中在元音及部分声学特征上。例如已有讨论共振峰集中比率(FCR3)、三角元音区域(TVSA)、嗓音起始时间(VOT)与构音障碍的相关性,其中共振峰集中比率和三角元音区域特征由元音固定发音来提取,嗓音起始时间则由含有目标辅音的短语中提取。由于固定发音和日常对话中的连续语音在发音质量和时长上有区别,在现有技术中描述的元音特征不适于语言训练课程中连续语音的部分。针对辅音,这种方法只关注了b、p、d、t、g和k六个辅音,同时对于嗓音起始时间这类特征的程序自动提取很难做到精确。另外,这些特征不足以充分反应构音障碍语音存在的问题,特别是辅音上存在置换现象导致的发音不准问题没被考虑。
[0005]综上,现有技术还缺乏有效的构音障碍自动评估手段,存在的主要问题是:听觉感知的主观评估方法缺少客观性、准确性和稳定性;没有实现障碍语音的自动评估;现有评估方法所使用的输入局限在有限的、孤立的字母发音,没有使用连续语音信息。

技术实现思路

[0006]本专利技术的目的在于克服上述现有技术的缺陷,提供一种基于语音识别的构音障碍自动评估系统和方法,旨在使用基于语音识别的言语特征提取方式,并结合深度学习的分类器进行构音障碍自动评估。
[0007]根据本专利技术的第一方面,提供了一种基于语音识别的构音障碍自动评估系统。该系统包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元,所述特征拼接单元与所述第一特征提取单元、所述第二特征提取单元、所述多层感知机具有
通信连接,所述评估单元与所述多层感知机具有通信连接,其中:所述第一特征提取单元用于提取传统的句子级别的声学特征;所述第二特征提取单元用于提取帧级别的音频标注和帧音素-概率对应关系,该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合;所述特征拼接单元将所述第一特征提取的特征和所述第二特征提取单元提取的特征进行拼接处理,获得拼接特征;所述多层感知机用于基于拼接特征输出个体句子障碍程度类别和相应的预测概率;所述评估单元利用个体句子的预测概率信息得到总体评估结果。
[0008]在一个实施例中,所述第二特征提取单元被配置为对每个句子音频提取音素时长、音素替换率、近似发音质量、帧模糊率或帧音素数中的一项或多项。
[0009]在一个实施例中,所述多层感知机被配置为包括输入层、隐藏层和输出层,其中所述输出层设置为4个节点,分别对应“正常”、“轻微”、“中等”和“严重”四类构音障碍。
[0010]在一个实施例中,所述第二特征提取单元被配置为:
[0011]将标准文本标注和实际发音音频输入深度神经网络声学模型,通过强制对齐得到帧级别的关于118个发音的音频标注;
[0012]将实际发音音频输入深度神经网络声学模型,得到深度神经网络声学模型的输出层每个节点对应的音素及相应的高斯概率密度函数;
[0013]计算每一帧包含的音素及其后验概率,其中相同音素的高斯概率密度函数的输出相加得到音素后验概率,进而获得帧音素-概率对应关系。
[0014]在一个实施例中,所述第二特征提取单元被设置为对每个句子音频提取元音音素时长、辅音音素时长、总体音素时长、辅音替换率、元音替换率、总体替换率、辅音近似发音质量的均值、元音近似发音质量的均值、总体近似发音质量的均值、句子帧模糊率、辅音音素数、元音音素数、帧音素数中的一项或多项。
[0015]在一个实施例中,所述特征拼接单元被设置为将所述第一特征提取单元提取的特征和所述第二特征提取单元提取的特征进行最大-最小归一化作为所述多层感知机的输入。
[0016]根据本专利技术的第二方面,提供一种基于语音识别的构音障碍自动评估方法。该方法包括以下步骤:
[0017]提取传统的句子级别的声学特征;
[0018]提取帧级别的音频标注和帧音素-概率对应关系,该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合;
[0019]将所述传统的句子级别的声学特征和基于所述帧音素-概率对应关系提取的特征进行拼接处理,获得拼接特征;
[0020]利用多层感知机基于所述拼接特征输出个体句子障碍程度类别和相应的预测概率;
[0021]利用个体句子的预测概率信息得到总体评估结果。
[0022]在一个实施例中,所述总体评估结果表示为:
[0023][0024]其中,N表示被评估的语音句子数量,P
平均
,p
预测
是多维向量,每个维度代表构音障碍
程度的类别,p
预测
表示构音障碍程度的对应概率。
[0025]与现有技术相比,本专利技术的优点在于:基于语音识别技术进行客观分析来进行构音障碍评估,评估结果具有准确性和稳定性;基于连续语音中的发音音素提取特征,使得特征含有尽可能多的构音障碍语音相关的信息;所述提取的特征集包含传统声学特征与基于自动语音识别技术的特征,使得将构音障碍语音存在的问题更加完整地表征出来,提高了评估的准确率;自动评估过程为被评估者及时反馈其语言训练效果信息,节省了人力和时间资源。
附图说明
[0026]以下附图仅对本专利技术作示意性的说明和解释,并不用于限定本专利技术的范围,其中:
[0027]图1是根据本专利技术一个实施例的基于语音识别的构音障碍自动评估系统的示意图;
[0028]图2是根据本专利技术另一实施例的基于语音识别的构音障碍自动评估系统的示意图;
[0029]图3是根据本专利技术一个实施例的DNN声学模型框架的示意图。
具体实施方式
[0030]为了使本专利技术的目的、技术方案、设计方法及优点更加清楚明了,以下结合附图通过具体实施例对本专利技术进一步详细说明。应当理解,此处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语音识别的构音障碍自动评估系统,其特征在于,包括第一特征提取单元、第二特征提取单元、特征拼接单元、多层感知机、评估单元,所述特征拼接单元与所述第一特征提取单元、所述第二特征提取单元、所述多层感知机具有通信连接,所述评估单元与所述多层感知机具有通信连接,其中:所述第一特征提取单元用于提取传统的句子级别的声学特征;所述第二特征提取单元用于提取帧级别的音频标注和帧音素-概率对应关系,该帧音素-概率对应关系是一个帧所含音素及其后验概率组成的两元组的集合;所述特征拼接单元将所述第一特征提取的特征和所述第二特征提取单元提取的特征进行拼接处理,获得拼接特征;所述多层感知机用于基于拼接特征输出个体句子障碍程度类别和相应的预测概率;所述评估单元利用个体句子的预测概率信息得到总体评估结果。2.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述第二特征提取单元被配置为对每个句子音频提取音素时长、音素替换率、近似发音质量、帧模糊率或帧音素数中的一项或多项。3.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述多层感知机被配置为包括输入层、隐藏层和输出层,其中所述输出层设置为4个节点,分别对应“正常”、“轻微”、“中等”和“严重”四类构音障碍。4.根据权利要求1所述的基于语音识别的构音障碍自动评估系统,其特征在于,所述第二特征提取单元被配置为:将标准文本标注和实际发音音频输入深度神经网络声学模型,通过强制对齐得到帧级别的关于118个发音的音频标注;将实际发音音频输入深度神经网络声学模型,得到深度神经网络声学模型的输出层每个节点对应的音素及相应的高斯概率密度函...

【专利技术属性】
技术研发人员:茹克艳木
申请(专利权)人:中国科学院深圳先进技术研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1