改善声音系统中的语音的音频质量技术方案

技术编号:33907101 阅读:24 留言:0更新日期:2022-06-25 18:51
用于声音系统的计算机实现的方法、装置和计算机程序产品。对包括向声音系统的语音输入的输入音频数据执行语音识别。另外对包括由声音系统的一个或多个音频扬声器再现的语音的输出音频数据的至少一个实例执行语音识别。确定对输入音频数据执行的语音识别的结果与对相应输出音频数据的实例执行的语音识别的结果之间的差异。当差异大于或等于阈值时,再现的语音的质量被确定为不合格。如果确定再现的声音的语音质量不合格,则可以执行校正动作,以改善由声音系统再现的语音的质量。以改善由声音系统再现的语音的质量。以改善由声音系统再现的语音的质量。

【技术实现步骤摘要】
【国外来华专利技术】改善声音系统中的语音的音频质量


[0001]本专利技术总体上涉及用于改善来自声音系统的音频输出的质量的技术,并且更具体地涉及改善聆听者对于声音系统的音频输出的语音质量。

技术介绍

[0002]声音系统经常用于通过音频扬声器向聆听者播放语音,例如,在剧院或礼堂的会议、讲座和表演中的出席者,或者在通信网络上的分布式地理位置的会议呼叫和网络会议中的参与者。在这种系统中,到麦克风的输入语音在主机系统被接收并且可选地被记录,音频数据由主机系统传送至一个或多个音频扬声器,并且(多个)音频扬声器将再现的语音输出(即,“播放”)给聆听者。在许多情况下,通过音频扬声器播放的所再现的语音不是输入语音的完美再现(例如,语音可能不清楚)。例如,如果音频扬声器的设置没有被优化,则再现的声音以及因此再现的语音可能失真,使得聆听者难以听到和/或理解。在其他情况下,输入语音本身可能是不完美的,例如,由于麦克风相对于语音源的位置或其次优设置。这再次使得聆听者难以听到或理解音频扬声器正在播放的语音。通常,与音频输出的语音的清晰度相关联的这些问题可以通过调整声音系统来解决。例如,如果聆听者通知主机语音难以听到或理解,那么主机可对声音系统的可配置设置进行调整或要求人类发声者相对于麦克风移动。然而,在进行调整时,这导致中断和延迟。此外,由于调整是手动的,因此它们可能不能完全解决聆听者的困难。

技术实现思路

[0003]根据本专利技术的一方面,提供了一种计算机实现的方法。该计算机实现的方法包括对输入音频数据执行语音识别,输入音频数据包括向声音系统的语音输入。计算机实现的方法还包括对输出音频数据的至少一个实例执行语音识别,该输出音频数据包括由声音系统的一个或多个音频扬声器再现的语音。该计算机实现的方法还包括确定对输入音频数据的语音识别的结果与对输出音频数据的至少一个实例的语音识别的结果之间的差异。计算机实现的方法还包括在差异大于或等于阈值时确定再现的语音的质量不合格。
[0004]根据本专利技术的另一方面,提供一种设备。该装置包括处理器和数据存储装置。处理器被配置为对输入音频数据执行语音识别,输入音频数据包括向声音系统的语音输入。处理器进一步被配置为对输出音频数据的至少一个实例执行语音识别,输出音频数据包括由声音系统的一个或多个音频扬声器再现的语音。处理器进一步被配置为确定对输入音频数据的语音识别的结果与对输出音频数据的至少一个实例的语音识别的结果之间的差异。处理器进一步经配置为当差异大于或等于阈值时确定再现的语音的质量不合格。
[0005]根据本专利技术的又一方面,提供了一种计算机程序产品。该计算机程序产品包括计算机可读存储媒质,该计算机可读存储媒质与程序指令一起被体现。程序指令由处理器可执行以使处理器:对输入音频数据执行语音识别,输入音频数据包括向声音系统的语音输入;对输出音频数据的至少一个实例执行语音识别,输出音频数据包括由声音系统的一个
或多个音频扬声器再现的语音;确定对输入音频数据的语音识别的结果与对输出音频数据的至少一个实例的语音识别的结果之间的差异;以及当差异大于或等于阈值时,确定再现的语音的质量不合格。
附图说明
[0006]下面将参考以下附图描述本公开的示例性实施方式。
[0007]图1是示出根据本专利技术的一个实施例的声音系统的示意图。
[0008]图2是根据本专利技术的一个实施例的用于检测和校正不合格的语音质量的方法的流程图。
[0009]图3是根据本专利技术的一个实施例的用于调整声音系统以改善语音质量的方法的流程图。
[0010]图4是根据本专利技术的一个实施例的声音系统的框图。
具体实施方式
[0011]本专利技术提供用于检测由声音系统再现的语音的质量何时不合格(例如,对于聆听者来说难以听到或不清楚/不连贯)且用于重新配置声音系统以改进再现的语音的质量的系统和方法。本公开的技术可被自动和实时地执行,以便限制中断并改善聆听者的体验。
[0012]具体地,根据本公开,分布在收听环境内的位置处的一个或多个麦克风用于检测由声音系统的一个或多个音频扬声器播放的再现的语音。包括由一个或多个麦克风中的每个麦克风接收的所再现的语音的输出音频数据被记录。对与一个或一个以上麦克风中的每个麦克风相关联的输出音频数据执行语音识别,以确定正在对应麦克风位置处播放的语音的质量。此外,对包括向声音系统的语音输入的输入音频数据执行语音识别,以确定来自源的语音的质量。针对每个麦克风在对输入音频数据执行的语音识别的结果与对相应的输出音频数据执行的语音识别的结果之间执行比较。比较的结果用于确定语音质量对于聆听者是否不合格,并且如果是,则采取校正动作,诸如,对声音系统做出调整以改善再现的语音的质量。
[0013]在本公开中,术语“语音”用于指代包含语音的声音或音频。术语“输入音频数据”是指声音的数字音频数据或包含源自由声音系统的麦克风(本文中“输入麦克风”)检测的源(例如,人类发声者)的语音的音频。术语“输出音频数据”是指声音的数字音频数据或包含由声音系统的一个或多个音频扬声器再现并且由声音系统的麦克风(本文中“输出麦克风”)检测的语音的音频。因此,音频数据“表示”或“包括”由声音系统的麦克风接收的包含语音的声音或音频。对音频数据的“记录”的引用指在数据存储装置中存储音频数据,数据存储装置包括用于通过网络通信的音频数据的瞬态存储,以及音频数据作为音频数据文件的临时和长期数据存储。
[0014]图1是示出根据本专利技术的一个实施例的声音系统的示意图。声音系统100包括通过数据通信网络140互连的主机处理系统110、多个麦克风120以及多个音频扬声器130。在图1所示的系统中,声音系统100是包括位于不同地理位置(例如,会议或洽谈室)的麦克风120和音频扬声器130的分布式系统。至少一个位置(位置1)包括主机处理系统110,在所示的示例中,该主机处理系统110是输入到声音系统100的语音的源的位置。其他位置(位置2和位
置3)包括用于将音频播放给相应收听环境中的聆听者的音频扬声器130。
[0015]主机处理系统110通常包括用户计算系统(例如,笔记本计算机)、专用声音系统控制器等,其可由用户操作以管理声音系统100。多个麦克风120包括输入麦克风122,其用于检测和记录来自源(例如,人类发声者)的语音以供声音系统100再现。输入麦克风122可以是用于接收向声音系统100的输入声音的专用麦克风(例如,讲台上的麦克风)等,或者可以是在主机处理系统110的控制下被“打开”的用户计算系统的麦克风。多个音频扬声器130再现输入语音,并且分布在形成收听环境的一个或多个位置(位置2和位置3)中的不同位置处。具体地,每个音频扬声器130通过网络140从主机处理系统110接收并播放与所记录的语音相对应的音频数据。音频扬声器130可以包括位置处的声音系统的一个或多个专用扬声器134(例如,剧院中的固定位置处的扬声器)或用户计算系统、联网电话等的音频扬声器132。通信网络140可以包括用于主机处理系统110、麦克风120和音频扬本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:对输入音频数据执行语音识别,所述输入音频数据包括向声音系统的语音输入;对输出音频数据的至少一个实例执行语音识别,所述输出音频数据包括由所述声音系统的一个或多个音频扬声器再现的语音;确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的差异;以及当所述差异大于或等于阈值时,确定所述再现的语音的质量不合格。2.根据权利要求1所述的计算机实现的方法,其中所述差异包括从针对输入语音的样本对所述输入音频数据的所述语音识别的结果和针对与所述输入语音的所述样本对应的所述再现的语音的样本对所述输出音频数据的所述语音识别的结果计算的定量值。3.根据权利要求1所述的计算机实现的方法,其中确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的所述差异包括:将对所述输入音频数据的所述语音识别的转录本的文本与对所述输出音频数据的所述至少一个实例的所述语音识别的转录本的文本进行比较;以及确定针对选自包括以下各项的组的所述差异的定量值:不同的字母的数目、不同的单词的数目、以及不同的字母或单词的百分比。4.根据权利要求1所述的计算机实现的方法,其中确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的所述差异包括:将由对所述输入音频数据的所述语音识别确定的第一置信度水平与由对所述输出音频数据的所述至少一个实例的所述语音识别确定的第二置信度水平进行比较,所述第一置信度水平包括指示对所述输入音频数据的所述语音识别的可靠性的置信度度量的值,所述第二置信度水平包括指示对所述输出音频数据的所述至少一个实例的所述语音识别的可靠性的置信度度量的值;以及确定所述第一置信度水平与所述第二置信度水平之间的差异。5.根据任一前述权利要求所述的计算机实现的方法,还包括:响应于确定所述再现的语音的所述质量不合格,执行所述声音系统的一个或多个参数调整以改善所述再现的语音的所述质量。6.根据权利要求5所述的计算机实现的方法,其中执行所述声音系统的所述一个或多个参数调整包括:执行第一参数调整,所述第一参数调整包括将所述声音系统的参数调整定义的增量或调整至目标值;以及响应于确定所述再现的语音的所述质量仍不合格,执行进一步的参数调整,直到预定义条件被满足。7.根据权利要求6所述的计算机实现的方法,其中所述预定义条件选自包括以下项的组:所述再现的语音的所述质量是合格的、所述再现的语音的所述质量被最大化、预定义的一组参数调整已经被执行、所述预定义的一组参数调整已经根据智能参数调整方案被执行、所述预定义的一组参数调整已经根据优化模型被调整、以及定时器到期。
8.根据权利要求5、6或7所述的计算机实现的方法,还包括:基于对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的差异,确定参数调整对所述再现的语音的所述质量的影响,所述输入音频数据和所述输出音频数据包括在所述参数调整之后的输入语音和所述再现的语音,以及存储关系信息,所述关系信息包括与所述参数调整以及对所述再现的语音的所述质量的所述影响相对应的参数和增量,以供使用作为对智能参数调整选择方案或用于优化所述再现的语音的所述质量的机器学习模型的反馈。9.根据任一前述权利要求所述的计算机实现的方法,还包括:确定向所述声音系统的语音输入的质量是否是可接受的,以及响应于确定向所述声音系统的所述语音输入的所述质量不是可接受的,向用户发送消息以做出与向所述声音系统的所述语音输入相关的改变。10.根据权利要求5至8中任一项所述的计算机实现的方法,其中所述一个或多个参数调整中的参数选自包括以下项的组:针对所述声音系统的分量的每个频带的音频增益和音频信道均衡。11.一种装置,包括:处理器和数据存储装置,其中所述处理器被配置为:对输入音频数据执行语音识别,所述输入音频数据包括向声音系统的语音输入;对输出音频数据的至少一个实例执行语音识别,所述输出音频数据包括由所述声音系统的一个或多个音频扬声器再现的语音;确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的差异;以及...

【专利技术属性】
技术研发人员:A
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1