基于语音分析的自动生理和病理评定制造技术

技术编号:38766222 阅读:24 留言:0更新日期:2023-09-10 10:39
本发明专利技术提供了评定受试者的病理和/或生理状态的方法,监测患有心力衰竭的受试者或已被诊断为患有与呼吸困难和/或疲乏相关联的病症或处于患有与呼吸困难和/或疲乏相关联的病症的风险中的受试者的方法,以及将受试者诊断为患有失代偿性心力衰竭的方法。所述方法包括:从来自所述受试者的单词朗读测试中获得话音记录,其中所述话音记录来自包括朗读抽取自一组n个单词的单词序列的单词朗读测试;以及分析所述话音记录或其部分。所述分析可包括:识别所述话音记录的对应于单个单词或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确单词率的一个或多个度量的值;以及将所述一个或多个度量的值与一个或多个相应参考值进行比较。本发明专利技术还描述了相关的系统和产品。本发明专利技术还描述了相关的系统和产品。

【技术实现步骤摘要】
【国外来华专利技术】基于语音分析的自动生理和病理评定


[0001]本专利技术涉及用于自动评定受试者的生理和/或病理状态的计算机实施的方法,特别地包括分析来自词语朗读测试的话音记录。本专利技术也描述了实施这些方法的计算装置。本专利技术的方法和装置应用于影响呼吸、嗓音音调、疲乏和/或认知能力的病理和生理状况的临床评定中。

技术介绍

[0002]对患有各种病症的患者进行远程监测有可能改善许多患者的医疗结果、质量和舒适度。因此,人们对开发患者可用来自己收集生物标志物数据(然后可由该患者的医疗团队对其进行评定)的装置和方法产生了很大兴趣。在慢性疾病或终身病症(诸如心脏病或哮喘)的情况下,远程监测的潜在好处是特别迫切的。基于非侵入性生物标志物的方法由于其较低的风险而特别可取。例如在心力衰竭(Maor等人,2018年)、哮喘、慢性阻塞性肺疾病(COPD)(Saeed等人,2017年)以及最近的COVID

19(Laguarta等人,2020年)的评定中,已经建议使用嗓音分析来收集此类生物标志物信息。
[0003]然而,这些方法中的全部都存在一致性限制。实际上,这些方法中的许多都依赖于自发的语音或声音(诸如咳嗽),或者朗读一组标准段落(诸如彩虹段落)(Murton等人,2017年)。自发语音或声音的使用在患者之间和同一患者的重复评定之间两者都存在高可变性,因为每个话音记录的内容可能差别很大。一组标准段落的使用控制了由于内容而导致的该固有可变性,但会受到与受试者在重复测试时习惯于标准文本相关联的神经心理学效应的干扰。这强烈地限制了话音分析生物标志物在远程监测情况下的实际使用。
[0004]因此,仍然需要改进的方法来自动评定病理和生理状况,可远程并且轻松地执行这些方法,使患者承受最小的负担。

技术实现思路

[0005]本专利技术人已经开发了一种用于自动评定受试者的生理和/或病理状态的新装置和方法,特别地包括分析来自词语朗读测试的话音记录。本专利技术人已经确定,来自词语朗读测试(诸如Stroop测试)的记录可用于导出可再现且可提供信息的生物标志物,用于评定受试者的病理和/或生理状态,并且特别地用于评定影响呼吸、嗓音音调、疲乏和/或认知能力的病症。
[0006]Stroop测试(Stroop,1935年)是三部分神经心理学测试(词语、颜色和干扰),已经用于诊断精神和神经失调。例如,其构成了根据广泛使用的统一亨廷顿病评定量表(UHDRS)来量化亨廷顿病(HD)严重程度的认知测试成套的部分。Stroop测试的词语和颜色部分表示“一致条件”,其中用黑色墨水打印颜色词语,并且用匹配的墨水颜色打印颜色标识。在干扰部分中,与墨水颜色不一致地打印颜色词语。要求患者尽可能快地朗读词语或说出墨水颜色的名称。临床医师将回应解释为正确或不正确。将分数报告为在给定45秒时间内的每个条件下的正确答案的数量。一致性条件被认为是测量处理速度和选择性注意。干扰条件需
要词语与颜色之间的心理转换,因此旨在测量认知灵活性。
[0007]本文所述的方法基于从受Stroop测试启发的词语朗读测试的记录中自动确定一个或多个已被识别为可用作生物标志物的度量,该度量选自话音音高、正确词语率、呼吸百分比和未发声/发声比率。该方法是独立于语言、完全自动化、可再现的,并且适用于影响呼吸、嗓音音调、疲乏和/或认知能力的各种病症。因此其使得能够在大量群体中远程自我评定和监测此类病症的症状、诊断或预后。
[0008]因此,根据第一方面,提供了一种评定受试者的病理和/或生理状态的方法,该方法包括:从来自该受试者的词语朗读测试中获得话音记录,其中该话音记录来自包括朗读抽取自一组n个词语的词语序列的词语朗读测试;以及通过以下来分析该话音记录或其部分:识别该话音记录的对应于单一词语或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确词语率的一个或多个度量的值;将该一个或多个度量的值与一个或多个相应参考值进行比较。
[0009]该方法可具有以下特征中的任何一个或多个特征。
[0010]识别该话音记录的对应于单一词语或音节的音段可包括:获得该话音记录的功率梅尔语谱图(Mel

spectrogram);计算该梅尔语谱图沿频率轴的最大强度投影;将音段边界定义为该梅尔语谱图沿该频率轴的该最大强度投影与阈值相交的时间点。
[0011]本文所述的词语/音节分割方法能够实现从话音记录中准确且灵敏地分割词语(并且在某些情况下也可从多音节词语中分割音节),即使在语音节奏相对快速(即词语之间不包含停顿或包含短停顿)的情况下,其中通常基于能量包络的现有方法可能不能良好地执行。其进一步能够实现在词语朗读任务中从数据自动量化从识别的发声音段导出的度量(诸如例如呼吸%、未发声/发声比率,以及率(诸如正确词语率)),该数据可远程地简单轻松地获取,诸如例如通过患者记录自己朗读在计算装置(例如,移动计算装置,诸如智能手机或平板电脑或个人计算机,通过应用程序或网络应用程序,如本文将进一步描述的)上显示的词语。
[0012]话音记录的对应于单一词语或音节的音段可被定义为包括在两个连续的词语/音节边界之间的音段。优选地,话音记录的对应于单一词语或音节的音段可被定义为:第一边界(梅尔语谱图的最大强度投影从较低值到较高值地与阈值相交处)与第二边界(梅尔语谱图的最大强度投影从较高值到较低值地与阈值相交处)之间的音段。有利地,可排除话音记录的不满足该定义的边界之间的音段。
[0013]确定一个或多个度量的值可包括将与记录相关联的呼吸百分比确定为话音记录中识别的音段之间的时间的百分比,或记录中识别的音段之间的时间与记录中识别的音段之间和识别的音段内的时间总和的比率。
[0014]确定一个或多个度量的值可包括将与记录相关联的未发声/发声比率确定为记录中识别的音段之间的时间与记录中识别的音段内的时间的比率。
[0015]确定一个或多个度量的值可包括通过计算对应于正确朗读词语的识别的音段的数量除以第一个识别的音段的开始与最后一个识别的音段的结束之间的持续时间的比率来确定与话音记录相关联的正确词语率。
[0016]确定一个或多个度量的值可包括通过获得识别的音段每一者的基频的一个或多个估计来确定与记录相关联的话音音高。确定该话音音高的值可包括获得识别的音段中的
每一者的基频的多个估计,并且将滤波器应用于该多个估计以获得过滤的多个估计。确定该话音音高的值可包括获得多个音段的汇总话音音高估计,诸如例如该多个音段的(任选地为过滤的)多个估计的均值、中值或众数。
[0017]确定一个或多个度量的值可包括:通过计算对应于话音记录中的朗读或正确朗读词语的识别的音段的数量随时间的累积和以及计算拟合到累积和数据的线性回归模型的斜率,来确定与话音记录相关联的总词语率或正确词语率。有利地,该方法引起对总词语率或正确词语率的稳健估计,作为在整个记录上每单位时间朗读或正确朗读词语的数量。由此获得的估计对异常值可能是稳健的(诸如例如可能致使正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种评定受试者的病理和/或生理状态的方法,所述方法包括:从来自所述受试者的单词朗读测试中获得话音记录,其中所述话音记录来自包括朗读抽取自一组n个单词的单词序列的单词朗读测试;以及通过以下来分析所述话音记录或其部分:识别所述话音记录的对应于单个单词或音节的多个音段;至少部分地基于识别的音段来确定选自呼吸%、未发声/发声比率、话音音高和正确单词率的一个或多个度量的值;将所述一个或多个度量的值与一个或多个相应参考值进行比较。2.根据权利要求1所述的方法,其中识别所述话音记录的对应于单个单词或音节的音段包括:获得所述话音记录的功率梅尔语谱图;计算所述梅尔语谱图沿频率轴的最大强度投影;以及将音段边界定义为所述梅尔语谱图沿所述频率轴的所述最大强度投影与阈值相交的时间点。3.根据任一项前述权利要求所述的方法,其中确定一个或多个度量的值包括将与所述记录相关联的呼吸百分比确定为所述话音记录中所述识别的音段之间的时间的百分比,或所述记录中所述识别的音段之间的时间与所述记录中所述识别的音段之间和所述识别的音段内的时间总和的比率。4.根据任一项前述权利要求所述的方法,其中确定一个或多个度量的值包括将与所述记录相关联的未发声/发声比率确定为所述记录中所述识别的音段之间的时间与所述记录中所述识别的音段内的时间的比率。5.根据任一项前述权利要求所述的方法,其中确定一个或多个度量的值包括通过获得所述识别的音段中的每一者的基频的一个或多个估计来确定与所述记录相关联的话音音高,任选地其中确定所述话音音高的值包括:获得所述识别的音段中的每一者的基频的多个估计,并且将滤波器应用于所述多个估计以获得过滤的多个估计,且/或其中确定所述话音音高的值包括获得多个音段的汇总话音音高估计,诸如例如所述多个音段的所述(任选地为过滤的)多个估计的均值、中值或众数。6.根据任一项前述权利要求所述的方法,其中确定一个或多个度量的值包括:通过计算对应于正确朗读的单词的识别的音段的数量除以第一个识别的音段的开始与最后一个识别的音段的结束之间的持续时间的比率,或通过计算对应于所述话音记录中正确朗读的单词的识别的音段的数量随时间的累积和,来确定与所述话音记录相关联的正确单词率;以及计算拟合到累积和数据的线性回归模型的斜率。7.根据任一项前述权利要求所述的方法,其中确定一个或多个度量的值包括确定与所述记录相关联的正确单词率,其中确定所述正确单词率包括:计算所述识别的音段中的每一者的一个或多个梅尔频率倒谱系数(MFCC)以获得多个值向量,每个向量与音段相关联,任选地其中计算一个或多个MFCC以获得音段的值向量包括:对于每个i,计算所述音段的每个帧的一组i个MFCC,以及通过内插,优选地是线性内插来获得所述音段的一组j个值,以获得所述音段的ixj个值的向量;将所述多个值向量聚类成n个聚类,其中每个聚类具有对应于所述n个单词中的每一者
的n个可能标签,任选地其中使用k

means来执行将所述多个值向量聚类成n个聚类;对于n!个标签排列中的每一者,使用与聚类的值向量相关联的所述标签来预测所述话音记录中的单词序列,并且在预测的单词序列与所述单词朗读测试中使用的所述单词序列之间执行序列比对,任选地其中使用局部序列比对算法,优选地是Smith

Waterman算法来执行序列比对步骤;以及选择引起最佳比对的所述标签,其中所述比对中的匹配对应于所述话音记录中的正确朗读单词,任选地其中执行序列比对包括获得比对分数,并且所述最佳比对为具有最高比对分数的所述比对。8.根据任一项前述权利要求所述的方法,其中识别所述话音记录的对应于单个单词或音节的音段进一步包括:(i)将所述话音记录的所述功率梅尔语谱图归一化,优选地相对于所述记录中具有最高能量的所述帧;和/或(ii)通过在所述音段的所述梅尔语谱图上计算谱通量函数来对所述音段中的至少一者执行起始检测,以及每当在音段内检测到起始时就定...

【专利技术属性】
技术研发人员:M
申请(专利权)人:巴塞尔大学医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1