用于监测或诊断健康状况的语音分析制造技术

技术编号:37498111 阅读:20 留言:0更新日期:2023-05-07 09:35
本发明专利技术涉及训练用于执行用于监测或诊断健康状况的语音分析的机器学习模型的计算机实现的方法。该方法使用包括音频语音数据的训练数据,并且包括获得一个或多个语言表示,每个语言表示对音频语音数据的子词,词或多个词序列进行编码。获得一个或多个音频表示,每个音频表示对音频语音数据的片段的音频内容进行编码;将语言表示和音频表示组合成输入序列,包括:音频语音数据的一个或多个词或子词的序列的语言表示;以及音频语音数据的片段的音频表示,其中这些片段一起包含一个或多个词或子词的序列。该方法还包括使用无监督学习来训练机器学习模型,以将输入序列映射到目标输出,以学习音频语音数据的组合音频语言表示,以供在用于监测或诊断健康状况的语音分析中使用。使用。使用。

【技术实现步骤摘要】
【国外来华专利技术】用于监测或诊断健康状况的语音分析


[0001]本专利技术涉及一种用于训练用于执行语音分析的机器学习模型的方法和系统,特别是用于监测或诊断健康状况。本专利技术还涉及将经训练的机器学习模型应用于患者语音数据以用于监测或诊断健康状况的方法以及包含经训练的模型的系统。

技术介绍

[0002]机器学习领域的快速发展,以及增加的计算能力和大型临床数据集的可用性,导致在医疗和医疗保健数据的分析,解释和理解中增加计算方法的应用。用于转化医疗行业的机器学习的潜力被广泛地认识到,并且越来越多地被视为潜在的解决方案,以增加由于生长的老化群体所致的健康护理中面临的压力。
[0003]人工智能在医疗保健中的应用包括使用机器学习来预测用于药物发现的分子化合物和靶的药物性质;对医学图像的模式识别和分割技术,以实现疾病进展的更快诊断和跟踪;以及在多模式数据源上开发深度学习技术,诸如组合基因组和临床数据以检测新的预测模型。
[0004]最近的发展已经尝试分析口语以提取临床上有意义的信息。这涉及语音的语言成分的基于文本或字符的分析(例如,语义,语法,语法,会话分析)和语音的声学分量的基于音频的分析(例如,韵律,与声带功能相关联的波级异常)。通常需要不同的方法来分析这两个组件。通过音频处理和自然语言处理技术(诸如自动语音识别)的发展部分地驱动,已经应用机器学习算法来识别指示神经变性疾病(诸如阿尔茨海默氏病)的口头语言的声学和语言损伤。通常,这些方法试图提取与语言的使用相关联的患者的语音的判别性特征,诸如词语的重复或不适当的使用,和/或诸如犹豫和关节运动的声学特征。然后,训练一般分类模型以基于所提取的特征对数据进行分类以诊断状况。尽管有显著的进展,但是在机器学习到用于诊断的语音分析的应用中仍然存在许多已知技术的问题。
[0005]首先,这些方法的诊断准确度保持有限,部分地因为现有方法未能成功地利用在语音数据中可用的信息的全部范围。算法通常也非常狭窄地集中,限制了将给定模型应用于特定有限应用之外的其他临床语音分析应用的可能性。例如,语言信息被表示的级别(例如,单词或多个单词级别)分别提供不同信息(例如,语义和句法信息)的更好表示。对于音频信息,不同时间尺度上的表示(例如相对较长,例如1.0s或相对较短,例如10ms)提供了不同信息(与测量电机功能相关的韵律信息或波级信息)的更好表示。现有的方法具有有限的适用性,仅具有一定程度的信息。
[0006]用于语音分析的医疗应用的另一关键限制在自动语音识别系统(asr)中找到或由自动语音识别系统(asr)引起;这些系统可能以两种方式引入噪声,首先通过在检测正确和/或正确铰接语音时产生错误,并且其次在校正不正确和/或不正确地铰接语音(例如,使用语言模型)时引入噪声。这混淆了在子字级发现的临床上有意义的信息(例如,错发,语法错误,淤浆)。
[0007]用于语音分析的健康应用的另一关键限制是健康相关数据集的有限可用性和大
小,特别标记了这样的数据集。这限制了更多表达模型的应用和现有模型的可生成性;作为后者的一个示例,现有模型通常被限制为在具有特定约束(例如,描述图片的某人)的语音输入上工作,从而限制现实世界的适用性。缺乏可生成性的其他示例仍然限制语音处理的健康应用跨记录环境,不同的语言/口音,年龄,性别和其他烦扰的协变量。
[0008]因此,需要一种训练用于语音分析任务的机器学习模型的方法,所述方法允许所述模型从所述语音数据提取更多临床相关信息以更准确地监测或诊断临床状况。还存在相关的目的,以提供一种更灵活的方法,该方法可以容易地应用于不同的医疗条件,并且具有跨越其他域/烦扰协变量的生成性,从而允许更广泛地应用该技术。理想地,该方法应当进一步解决临床数据集的有限可用性。

技术实现思路

[0009]本专利技术的第一方面:提供一种计算机实施的方法,训练执行言语分析的机器学习模型,用于健康问题的监测或诊断,所述方法使用包括语音数据的训练数据,所述方法包括:获得一个或多个语言表征,所述语言表征分别编码语音数据的一个子词、单词或多词序列;获得一个或多个音频表征,所述音频表征分别编码一个语音数据段的音频内容;将语言表征和音频表征组合成一个输入序列,所述输入序列包括:语音数据一个或多个单词或子词构成的序列的语言表征;以及语音数据段的音频表征,其中这些数据段共同包含所述一个或多个单词或子词构成的序列;所述方法进一步包括:使用无监督学习来训练机器模型,学习输入序列的组合音频

语言表征,以执行言语分析,用于健康问题的监测或诊断。
[0010]所述方法可以包括训练机器学习模型,将输入序列映射至目标输出,从而学习语音数据(在输入序列中被编码)的组合音频

语言表征。在训练期间,目标输出可以被所述模型定义,例如输出可以是训练模型旨在预测的输入序列保留的一部分。
[0011]本专利技术的第二个方面:包括一种计算机实施的方法,训练执行言语分析的机器学习模型,用于健康问题的监测或诊断,所述方法使用包括语音数据的训练数据,所述方法包括:获得一个或多个语言表征,所述语言表征分别编码语音数据的一个子词、单词或多词序列;获得一个或多个音频表征,所述音频表征分别编码一个语音数据段的音频内容;形成一个语言输入序列,所述语言输入序列包括语音数据一个或多个单词或子词构成的序列的语言表征;形成一个音频输入序列,所述音频输入序列包括语音数据段的音频表征,其中这些数据段共同包含所述一个或多个单词或子词构成的序列;所述方法进一步包括:使用无监督学习来训练机器模型,学习输入音频序列和输入语言序列形成的组合音频

语言表征,以执行言语分析,用于健康问题的监测或诊断。
[0012]特别地,所述方法可以包括训练机器模型,将语言输入序列和音频输入序列映射至目标输出,从而学习语音数据(在输入序列中被编码)的组合音频

语言表征。
[0013]以下详情与上述第一和第二方面的相关方法等同相关,可以等同适用于二者。
[0014]通过将与语音数据中使用的单词关联的语言信息和非语言信息组合并使用语言和非语言表征联合训练机器模型,所述模型能够学习与言语的语言组分和音频组分之间的相互作用相关的特征(除仅与语言相关的特征和仅与音频相关的特征之外),从而赋予所述模型现有技术中不存在的辨别能力。特别地,通过使用语言表征和音频表征的输入序列来训练模型,模型能够学习组合音频

语言保证,捕获有关患者使用的语言与其讲话方式(包
括情绪、语音错误、变异和迟疑)之间相互关联的信息。
[0015]本专利技术背后的一个重要洞察是:凭借声学(包括言语中的韵律、组分和单词)的互相可预测性,无监督训练是基于这些输入制作音频

语言表征的一种特别有效的方法。
[0016]训练中学习到的组合音频

语音特征使得所述模型能够监测并诊断临床病情,其准确度是使用语言和声学特征但并不以这种方式组合这些特征的现有技术所不能达到的。所述模本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实施的方法,训练执行言语分析的机器学习模型,用于健康问题的监测或诊断,所述方法使用包括语音数据的训练数据,所述方法包括:获得一个或多个语言表征,所述语言表征分别编码语音数据的一个子词、单词或多词序列;获得一个或多个音频表征,所述音频表征分别编码一个语音数据段的音频内容;将所述语言表征和音频表征组合成一个输入序列,所述输入序列包括:语音数据一个或多个单词或子词构成的序列的语言表征;以及语音数据段的音频表征,其中这些数据段共同包含所述一个或多个单词或子词构成的序列;所述方法进一步包括:使用无监督学习来训练机器模型,学习输入序列的组合音频

语言表征,以执行言语分析,用于健康问题的监测或诊断。2.如权利要求1所述的方法,其特征在于,使用无监督学习训练机器学习模型包括训练机器模型来预测输入序列或语音数据的被保留部分或属性。3.如权利要求1或权利要求2所述的方法,其特征在于,训练机器学习模型包括掩膜或损坏输入序列中的一个或多个语言和/或音频表征,然后训练机器学习模型来预测被掩膜或损坏的语言和/或音频表征。4.如任何前述权利要求所述的方法,其特征在于,组合语言保证和音频表征包括:形成一个语言序列,所述语言系列包括由语音数据一个或多个单词或子词构成的序列的语言表征;形成一个音频序列,所述音频序列包括语音数据段的音频表征,这些数据段共同包含所述一个或多个单词或子词构成的序列;并且通过如下一种或多种方式组合所述语言序列和音频序列:沿着任何维度将语言序列和音频序列联接起来;将语言序列和音频序列求和;对音频序列和/或语言序列执行线性或非线性转换通过输入到初始神经网络层来组合语言序列和音频序列。5.如权利要求4所述方法,其特征在于,组合语言序列和音频序列包括:训练一个神经网络层,通过如下方法将音频序列和语言序列对齐:对于每个语言表征,使用时间对齐信息选择一个或多个相关音频表征,其中模型通过确定所述语言表征和每个音频表征之间的时间延迟,获得音频序列的时间对齐信息。6.根据任何前述权利要求所述的方法,训练机器学习模型包括:使用无监督学习,基于第一个训练数据集预训练机器学习模型,学习输入序列的组合音频

语言表征;向预训练机器学习模型添加一个任务专用网络层,然后使用包括任务专用训练数据的第二个训练数据集执行任务专用训练,所述任务专用训练数据与具体健康监测或诊断任务相关。7.如权利要求6所述方法,其特征在于,执行任务专用训练包括:共同训练预训练机器学习模型和任务专用层,以将输入序列映射至与健康问题相关的目标输出。
8.如任何前述权利要求所述的方法,其特征在于,健康问题与一种或多种认知性或神经退行性疾病、运动障碍、情感障碍、神经行为问题、颅脑损伤或卒中相关。9.如任何前述权利要求所述的方法,其特征在于,语言表征分别编码语音数据的一个字符或音位。10.如何前述任何权利要求所述的方法,其特征在于,音频表征包括韵律表征,所述韵律表征分别编码一个语音数据段的非语言内容。11.如权利要求10所述的方法,其特征在于,获得韵律表征包括将音频数据段输入经训练的韵律编码器,以将语音数据段映射至韵律表征,所述韵律表征编码语音数据段的非语言...

【专利技术属性】
技术研发人员:杰克
申请(专利权)人:诺沃斯有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1