用于自动咳嗽检测的方法和装置制造方法及图纸

技术编号:34830042 阅读:52 留言:0更新日期:2022-09-08 07:22
一种用于识别受试者的音频录音中的咳嗽声音的方法,该方法包括:操作至少一个电子处理器以识别该音频录音中的潜在咳嗽声音;操作该至少一个电子处理器以将该潜在咳嗽声音中的一个或多个潜在咳嗽声音转换为相应的一个或多个图像表示;操作该至少一个电子处理器以将所述一个或多个图像表示应用于表示模式分类器,该表示模式分类器被训练为确认潜在咳嗽声音是咳嗽声音或潜在咳嗽声音不是咳嗽声音;以及操作该至少一个电子处理器以基于该表示模式分类器的输出,将该潜在咳嗽声音中的一个或多个潜在咳嗽声音标记为经确认的咳嗽声音。或多个潜在咳嗽声音标记为经确认的咳嗽声音。或多个潜在咳嗽声音标记为经确认的咳嗽声音。

【技术实现步骤摘要】
【国外来华专利技术】用于自动咳嗽检测的方法和装置
[0001]相关申请
[0002]本申请要求于2019年12月16日提交的、申请号为2019904755的澳大利亚临时专利申请的优先权,其公开内容通过引用并入本文。


[0003]本专利技术涉及一种用于处理受试者声音用于自动检测其中的咳嗽声音的方法和装置。

技术介绍

[0004]对现有技术的方法、装置或文献的任何引用不应被认为构成它们已经形成或形成公知常识的一部分的任何证据或承认。
[0005]已知通过电子方式处理受试者声音以预测呼吸疾病的存在。在疾病症状是受试者咳嗽的情况下,重要的是能够识别受试者声音中包含咳嗽的片段,而不是背景噪声。
[0006]现有技术中已知多种识别患者声音的咳嗽片段的方法。例如,在Abeyratne等人提出的WO2013/142908中,描述了一种用于咳嗽检测的方法,其涉及针对受试者的声音的多个片段中的每个片段,确定多个特征,根据那些特征形成特征向量并将它们应用于预训练分类器。然后处理来自分类器的输出,以将这些片段视为“咳嗽”或“非咳嗽”。
[0007]WO2018/141013中描述了识别受试者声音中包含咳嗽的部分的更近的方法(本文有时称为“LW2”方法),其中,将来自受试者声音的特征向量应用于两个预训练神经网络,该预训练神经网络分别地被训练用于检测咳嗽声音的初始阶段和咳嗽声音的后续阶段。根据正训练对第一神经网络进行加权以检测初始爆发阶段,并且对第二神经网络进行正加权以检测咳嗽声音的一个或多个后爆发阶段。在LW2方法的优选实施例中,根据关于爆发阶段的正训练和关于后爆发阶段的负训练进一步加权第一神经网络。LW2在识别一系列相连的咳嗽中的咳嗽声音方面特别有益。
[0008]专利技术人注意到,现有技术咳嗽识别方法可能出现的问题是它们可能具有不期望的低特异性,这意味着这些方法将实际上不是咳嗽的声音片段识别为咳嗽声音。这种假阳性检测可能使得那些方法对于在高背景噪声环境中的长期使用是不可行的,在高背景噪声环境中,受试者声音录音中的非咳嗽事件的数量远大于咳嗽事件的数量。
[0009]期望提供一种能够减少假阳性的数量的方法和装置。

技术实现思路

[0010]一种用于识别受试者的音频录音中的咳嗽声音的方法,该方法包括:
[0011]操作至少一个电子处理器以识别该音频录音中的潜在咳嗽声音;
[0012]操作该至少一个电子处理器以将该潜在咳嗽声音中的一个或多个潜在咳嗽声音转换为相应的一个或多个图像表示;
[0013]操作该至少一个电子处理器以将该一个或多个图像表示应用于表示模式分类器,
该表示模式分类器被训练为确认潜在咳嗽声音是咳嗽声音或潜在咳嗽声音不是咳嗽声音;以及
[0014]操作该至少一个电子处理器以基于该表示模式分类器的输出,将该潜在咳嗽声音中的一个或多个潜在咳嗽声音标记为经确认的咳嗽声音。
[0015]在一实施例中,该方法包括操作该处理器以将一个或多个声音转换为该图像表示,其中,该图像表示与频率和时间相关。
[0016]在一实施例中,该一个或多个图像表示包括多个谱图。
[0017]在一实施例中,该一个或多个图像表示包括梅尔谱图。
[0018]在一实施例中,该方法包括操作该处理器以,通过使用被训练为分别地检测咳嗽声音的初始阶段和后续阶段的第一咳嗽声音模式分类器和第二咳嗽声音模式分类器,将该潜在咳嗽声音识别为该音频录音的咳嗽音频片段。
[0019]在一实施例中,该一个或多个图像表示具有N
×
M个像素的维度,并且该一个或多个图像表示通过该处理器处理每个咳嗽音频片段中的N个窗口来形成,其中,该N个窗口中的每个窗口被分解为M个频率组。
[0020]在一实施例中,该N个窗口中的每个窗口与该N个窗口中的至少一个其他窗口重叠。
[0021]在一实施例中,该窗口的长度与该窗口相关联的咳嗽音频片段的长度成比例。
[0022]在一实施例中,该方法包括操作该处理器,以计算快速傅里叶变换(FFT)和每频率组的功率值,以得到该一个或多个图像表示中的相应图像表示的相应像素值。
[0023]在一实施例中,该方法包括操作该处理器,以将每频率组的功率值计算成M个功率值的形式,该每频率组的功率值为该M个频率组中的每个频率组的功率值。
[0024]在一实施例中,该M个频率组包括M个梅尔频率组,该方法包括操作该处理器,以连接并归一化该M个功率值,从而产生以梅尔谱图图像形式的该相应图像表示。
[0025]在一实施例中,该图像表示是正方形的,并且其中,M等于N。
[0026]在一实施例中,该表示模式分类器包括神经网络。
[0027]在一实施例中,该神经网络是卷积神经网络(CNN)。
[0028]在一实施例中,该方法包括操作该处理器,以将概率值与预定义阈值进行比较,该概率值包括或基于该表示模式分类器的输出。
[0029]在一实施例中,该方法包括操作该处理器,以在该概率值超过该预定义阈值的情况下,将该潜在咳嗽声音中的一个或多个潜在咳嗽声音标记为经确认的咳嗽声音。
[0030]在一实施例中,该方法包括操作该处理器,以通过将该相应的咳嗽音频片段的开始时间和结束时间标记为经确认的咳嗽声音的开始时间和结束时间来标记该经确认的咳嗽声音。
[0031]在一实施例中,该方法包括操作该处理器,以响应于该处理器在显示器上生成屏幕数据,该屏幕数据指示经处理的潜在咳嗽声音的数量和经确认的咳嗽声音的数量。
[0032]根据另一装置,提供了一种用于识别受试者的咳嗽声音的装置,包括:
[0033]音频捕获设备,被配置为将受试者的数字音频录音存储在电子存储器中;
[0034]声音片段到图像表示组件,被布置为将预识别的潜在咳嗽声音转换为相应的图像表示;
[0035]表示模式分类器,与该声音片段到图像表示组件通信,该表示模式分类器被配置为处理图像表示,从而产生信号,该信号指示对应于预识别的潜在咳嗽声音的图像表示是经确认的咳嗽声音的概率。
[0036]在一实施例中,该装置包括一个或多个咳嗽声音分类器,该咳嗽声音分类器被训练为识别该数字音频录音的其中一些部分,从而产生该预识别的潜在咳嗽声音。
[0037]在一实施例中,该一个或多个咳嗽声音分类器包括被训练为分别地检测咳嗽声音的初始阶段的第一咳嗽声音模式分类器和检测咳嗽声音的后续阶段的第二咳嗽声音模式分类器。
[0038]在一实施例中,该第一咳嗽声音模式分类器和该第二咳嗽声音模式分类器各自包括多个神经网络。
[0039]在一实施例中,该声音片段到图像表示组件被设置为将该预识别的潜在咳嗽声音转换为相应的图像表示,该相应的图像表示包括谱图。
[0040]在一实施例中,该声音片段到图像表示组件被设置为,通过对该预识别的潜在咳嗽声音计算快速傅立叶变换和M的每组功率,将该预识别的潜在咳嗽声音转换为相应的图像表示。
[0041本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于识别受试者的音频录音中的咳嗽声音的方法,所述方法包括:操作至少一个电子处理器以识别所述音频录音中的潜在咳嗽声音;操作所述至少一个电子处理器以将所述潜在咳嗽声音中的一个或多个潜在咳嗽声音转换为相应的一个或多个图像表示;操作所述至少一个电子处理器以将所述一个或多个图像表示应用于表示模式分类器,所述表示模式分类器被训练为确认潜在咳嗽声音是咳嗽声音或潜在咳嗽声音不是咳嗽声音;以及操作所述至少一个电子处理器以基于所述表示模式分类器的输出,将所述潜在咳嗽声音中的一个或多个潜在咳嗽声音标记为经确认的咳嗽声音。2.根据权利要求1所述的方法,包括:操作所述处理器以将一个或多个声音转换为所述图像表示,其中,所述图像表示与频率和时间相关。3.根据前述权利要求中任一项所述的方法,其中,所述一个或多个图像表示包括多个谱图。4.根据权利要求3所述的方法,其中,所述一个或多个图像表示包括多个梅尔谱图。5.根据前述权利要求中任一项所述的方法,包括操作所述处理器以,通过使用被训练为分别地检测咳嗽声音的初始阶段和后续阶段的第一咳嗽声音模式分类器和第二咳嗽声音模式分类器,将所述潜在咳嗽声音识别为所述音频录音的咳嗽音频片段。6.根据权利要求5所述的方法,其中,所述一个或多个图像表示具有N
×
M个像素的维度,并且所述一个或多个图像表示通过所述处理器处理所述咳嗽音频片段中的每个咳嗽音频片段的N个窗口来形成,其中,所述N个窗口中的每个窗口被分解为M个频率组。7.根据权利要求6所述的方法,其中,所述N个窗口中的每个窗口与所述N个窗口中的至少一个其他窗口重叠。8.根据权利要求7所述的方法,其中,所述窗口的长度与所述窗口相关联的咳嗽音频片段的长度成比例。9.根据权利要求8所述的方法,包括操作所述处理器,以计算快速傅里叶变换(FFT)和每频率组的功率值,以得到所述一个或多个图像表示中的相应图像表示的相应像素值。10.根据权利要求9所述的方法,包括操作所述处理器,以将每频率组的功率值计算为M个功率值的形式,所述每频率组的功率值为所述M个频率组中的每个频率组的功率值。11.根据权利要求9或10所述的方法,其中,所述M个频率组包括M个梅尔频率组,所述方法包括操作所述处理器,以连接并归一化所述M个功率值,从而产生以梅尔谱图图像形式的所述相应图像表示。12.根据权利要求6至11中任一项所述的方法,其中,所述图像表示是正方形的,并且其中,M等于N。13.根据前述权利要求中任一项所述的方法,其中,所述表示模式分类器包括神经网络。14.根据权利要求13所述的方法,其中,所述神经网络是卷积神经网络(CNN)。15.根据前述权利要求中任一项所述的方法,包括操作所述处理器,以将概率值与预定义阈值进行比较,所述概率值包括或基于所述表示模式分类器的输出。16.根据权利要求1所述的方法,包括操作所述处理器,以在概率值超过预定义阈值的
情况下,将所述潜在咳嗽声音中的一个或多个潜在咳嗽声音标记为经确认的咳嗽...

【专利技术属性】
技术研发人员:J
申请(专利权)人:瑞爱普健康有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1