用于处理音频信号的方法、用于控制设备的方法及其系统技术方案

技术编号:36940138 阅读:32 留言:0更新日期:2023-03-22 19:01
本发明专利技术提供用于处理音频信号的方法和设备。在此,在接收到的音频信号中识别音频信号中的操作人员的语音输入的开始。从识别出的语音输入的开始起基本上实时地持续分析音频信号以用于提供语音分析结果。根据语音分析结果动态地规定语音输入的结束。最后,基于在识别出的开始与所规定的结束之间的音频信号来提供语音数据流。语音数据流随后可以被引向进一步分析,例如以便辨识一个或多个语音指令。例如以便辨识一个或多个语音指令。例如以便辨识一个或多个语音指令。

【技术实现步骤摘要】
用于处理音频信号的方法、用于控制设备的方法及其系统


[0001]本专利技术涉及一种用于处理包含操作人员的语音输入的音频信号的方法、一种基于此的用于控制设备的方法以及一种对应的系统。尤其地,本专利技术在此涉及用于控制医学设备的方法以及具有医学设备的对应的医学系统。

技术介绍

[0002]医学设备通常用于治疗和/或检查患者。为了检查患者,例如将医学成像模态用作医学设备。这种成像模态例如可以包括磁共振设备、计算机断层扫描设备、PET设备(正电子发射断层扫描设备)等。此外,为了治疗患者,使用介入和/或治疗设备、例如放疗或放射治疗设备、用于执行尤其微创手术的设备等。在此,借助于医学设备治疗和/或检查患者通常由操作人员支持,例如由护理人员、技术人员、X射线助理员工或医生支持。
[0003]在借助于这种医学设备执行患者的治疗和/或检查之前和期间,通常应对医学设备进行不同的设定,例如输入患者数据、设定不同的设备参数等。所述步骤通常由操作人员执行,其中进行医学设备的设定通常经由在设备处提供的物理用户界面来实现,操作人员可以在所述用户界面中进行输入。
[0004]为了经济地运行这种医学设备,期望顺畅的工作或方法流程。尤其应尽可能简单地设计设定的进行。在所述方面,DE 10 2006 045 719 B4描述了具有语音输入设备的医学系统,其中可以借助于语音控制来激活和停用所述系统的特定功能。在此,借助于语音分析模块处理借助于语音输入设备检测的音频信号,以便求取操作人员的一个或多个语音指令。
[0005]在复杂的系统的语音控制的情况下,通常在对于许多应用所需的语音分析的速度与通过自然语言表达的操作人员的用户意图的尽可能正确和完整的检测之间产生目标冲突。过长的分析持续时间可能引起对于操作人员的不必要的等待时间,从而引起失望。相反,仅考虑速度的语音分析可能引起执行错误的或不完整的指令以及引起错误,这尤其在医学环境中通常是不可接受的。

技术实现思路

[0006]因此,本专利技术的目的是,解决所述问题并且提供一种用于处理音频信号的方法,所述方法允许在所述方面改进的操作人员的语音指令的求取。这种方法尤其应将快速的处理持续时间与实际的用户意图的尽可能无错误的检测相结合。此外,本专利技术的目的是,基于此提出一种用于控制实体设备的方法,其中实体设备尤其可以具有医学设备。此外,本专利技术的目的是,提出包括实体设备和对应的(即执行所述方法的)语音分析设备的——尤其医学的——系统。
[0007]根据本专利技术,所提出的目的借助于根据本专利技术的用于处理音频信号的方法、用于控制实体设备的方法、语音分析设备、具有语音分析设备的系统、计算机程序产品以及计算机可读的存储介质来实现。有利的改进方案在下面的描述中说明。
以便中断语音输入。替代于此,基于持续的“预分析”来适配在音频信号内的与对于操作人员的语音输入的含义的进一步分析相关的时间段。
[0016]然后,基于这样规定的结束和识别出的开始来提供语音数据流。例如,语音数据流可以包括在识别出的开始与所规定的结束之间的音频信号或基于所述音频信号。根据一些实现方案,语音数据流可以包括在识别出的开始与所规定的结束之间的数字化音频信号或基于所述数字化音频信号。如果语音分析结果已经包括音频信号或呈文本形式的语音输入的文字记录,则语音数据流也可以包括这种文字记录或基于所述文字记录。例如可以以在识别出的开始与所规定的结束之间的音频信号和/或语音输入的记录的形式提供语音数据流。对应地,提供的步骤可以包括记录在识别出的开始与所规定的结束之间的音频信号和/或语音输入,并且将所述记录提供为语音数据流。在此,尤其可以提供语音数据流以用于进一步分析语音数据流,例如以便识别语音数据流中的一个或多个语音指令。对应地,提供的步骤可以包括为对应的语音识别模块或对应的(第二)计算机语言学算法提供语音数据流,或包括将语音数据流输入到语音识别模块或对应的(第二)计算机语言学算法中以用于识别语音数据流中的一个或多个语音指令。
[0017]上述特征协同地如下共同作用:可以根据迄今的语音输入动态地规定语音输入结束的决定。在此,对刚才口述的语音输入进行连续的评估和使用相关联的结果可以实现显著更可靠的语音结束识别和从而实现明显更好的和更可靠的可操作性。因此可行的是,根据迄今的语音输入符合要求地规定语音输入的结束。借此,例如可以避免过长时间地等待使用者的另外的语音,这意味着对于使用者而言不必要的等待时间。相反,也可以避免过早地将语音输入或记录视为结束,这可能引起不完整的指令的评价并且引起错误。换言之,所述方法步骤是用于根据所提供的语音数据流的整体的、即不持续的语音分析的实际语音识别的预处理。通过预处理,语音分析能够也支持更复杂的命令,而不会减慢针对对时间要求严格的命令的反应。因此,所述方法发挥纯处理之外的作用,因为可以提供更好地适配于条件并且可以实现更好的语音分析的语音数据流。所述方法的流程还通过语音分析方法之外的技术条件、即通过音频信号的信号特性(频率分量、幅值等)和操作人员的口述语言来确定。
[0018]根据一个实现方案,所述方法还包括基于语音数据流求取一个或多个语音指令。所述方法可选地还包括提供所求取的语音指令。
[0019]所述步骤涉及对所提供的(整个)语音数据流进行随后的处理。所述步骤尤其可以借助于应用到语音数据流上的单独的第二计算机语言学算法来执行。第二计算机语言学算法尤其可以具有语音至文本(软件)模块(英文:text

to

speech)。为了进一步分析以及辨识一个或多个语音指令,第二计算机语言学算法可以附加地或替选地具有语音识别(软件)模块(NLU模块),所述语音识别(软件)模块例如可以借助于LSI为语音数据流赋予含义。
[0020]通过两部分处理(部分1用于语音输入的符合需求的截断,和部分2用于语音输入的随后分析),可以实现语音指令的可靠的辨识(其通常需要分析整个语音输入)。同时,通过(呈语音数据流形式的)音频信号中的情景适配的局部,可以同样好地支持更长的和更短的语音输入。
[0021]例如可以将语音指令提供给进一步处理,尤其以用于基于语音指令产生用于设备的一个或多个控制信号。此外,可以将语音指令提供给操作人员,例如其方式为,经由用户
界面显示所述语音指令。然后,操作人员例如可以验证所提供的语音指令。
[0022]根据一个实现方案,所述方法还包括基于语音分析结果调整自适应时间段的步骤。规定语音输入的结束的步骤然后包括检测音频信号不包含语音输入的时刻,并且如果从所检测的时刻开始在自适应时间段内没有语音输入的新开始被识别到,则将语音输入的结束规定到所检测的时刻。
[0023]因此,根据所述实现方案,自适应时间段可以理解为可变的超时,在所述可变的超时结束之后可以假设,操作人员在语音输入结束之后将不再说话。尤其地,识别音频信号不包含语音输入的时刻可以如在上文中描述的识别语音输入的开始那样包括在音频信号中识别人声。这可以借助于信号分析机构来实现,例如其方式为,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种用于处理音频信号(E1)的计算机实现的方法,所述方法具有如下步骤:

接收(S20)所述音频信号(E1);

在所述音频信号(E1)中识别(S40

A)操作人员的语音输入的开始(BE);

从识别出的所述语音输入的开始(BE)起基本上实时地分析(S40

B)所述音频信号(E1),以用于提供语音分析结果;

基于所述语音分析结果规定(S40

D,S40

D')所述语音输入的结束(EN);以及

基于在识别出的开始(BE)与所规定的结束(EN)之间的所述音频信号(E1)来提供(S40

E)语音数据流(E2)。2.根据权利要求1所述的方法,所述方法还具有:

基于所述语音分析结果调整(S40

C)自适应时间段(AZS);其中规定(S40

D)所述语音输入的结束(EN)的步骤包括:

检测(S40

D

0)所述音频信号(E1)不包含语音输入的时刻(T0);

如果从所检测的时刻(T0)起在所述自适应时间段(AZS)内识别出没有语音输入的新的开始(BE),则将所述语音输入的结束(EN)规定(S40

D

1)到所检测的时刻(T0)。3.根据权利要求2所述的方法,所述方法还具有:

重复(S40

D

2)检测(S40

D

0)的步骤,直至从所检测的时刻(T0)开始在所述自适应时间段(AZS)内识别出没有语音输入的新的开始(BE);

其中在重复(S40

D

2)期间持续地执行分析(S40

B)的步骤,并且基于这样获得的所述语音分析结果持续地调整(S40

C)所述自适应时间段。4.根据权利要求1所述的方法,所述方法还具有:

基于所述语音分析结果调整(S40

C')自适应时间段(AZS);其中规定(S40

D)所述语音输入的结束(EN)的步骤包括:

在从识别出的所述语音输入的开始(BE)起所述自适应时间段(AZV)结束之后规定(S40

D')所述语音输入的结束(EN)。5.根据权利要求2至4中任一项所述的方法,其中:

分析(S40

B)所述音频信号(E1)的步骤包括求取(S40

B

0)所述语音输入从识别出的开始(BE)起迄今的持续时间(D);

所述语音分析结果(E3)包括所述语音输入的迄今的持续时间(D),以及

在调整(S40

C,S40

C')的步骤中,根据所述迄今的持续时间(D)适配所述自适应时间段(AZS),其中所述自适应时间段(AZS)尤其适配成,使得所述自适应时间段(AZS)至少分部段地随着所述迄今的持续时间(D)增加。6.根据上述权利要求中任一项所述的方法,其中:

分析(S40

B)所述音频信号(E1)的步骤包括用于分割所述音频信号(E1)内的字母、单词和/或句子的标记化(S40

B

2);

所述语音分析结果包括相关联的标记化信息。7.根据权利要求6与权利要求2至5中任一项相结合的所述的方法,其中:

所述标记化信息指示所述操作人员是否已经说完当前句子;以及在确定(S40...

【专利技术属性】
技术研发人员:泽伦
申请(专利权)人:西门子医疗有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1