改善声音系统中的语音的音频质量技术方案

技术编号：33907101 阅读：61 留言：0更新日期：2022-06-25 18:51

用于声音系统的计算机实现的方法、装置和计算机程序产品。对包括向声音系统的语音输入的输入音频数据执行语音识别。另外对包括由声音系统的一个或多个音频扬声器再现的语音的输出音频数据的至少一个实例执行语音识别。确定对输入音频数据执行的语音识别的结果与对相应输出音频数据的实例执行的语音识别的结果之间的差异。当差异大于或等于阈值时，再现的语音的质量被确定为不合格。如果确定再现的声音的语音质量不合格，则可以执行校正动作，以改善由声音系统再现的语音的质量。以改善由声音系统再现的语音的质量。以改善由声音系统再现的语音的质量。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】改善声音系统中的语音的音频质量

[0001]本专利技术总体上涉及用于改善来自声音系统的音频输出的质量的技术，并且更具体地涉及改善聆听者对于声音系统的音频输出的语音质量。

技术介绍

[0002]声音系统经常用于通过音频扬声器向聆听者播放语音，例如，在剧院或礼堂的会议、讲座和表演中的出席者，或者在通信网络上的分布式地理位置的会议呼叫和网络会议中的参与者。在这种系统中，到麦克风的输入语音在主机系统被接收并且可选地被记录，音频数据由主机系统传送至一个或多个音频扬声器，并且(多个)音频扬声器将再现的语音输出(即，“播放”)给聆听者。在许多情况下，通过音频扬声器播放的所再现的语音不是输入语音的完美再现(例如，语音可能不清楚)。例如，如果音频扬声器的设置没有被优化，则再现的声音以及因此再现的语音可能失真，使得聆听者难以听到和/或理解。在其他情况下，输入语音本身可能是不完美的，例如，由于麦克风相对于语音源的位置或其次优设置。这再次使得聆听者难以听到或理解音频扬声器正在播放的语音。通常，与音频输出的语音的清晰度相关联的这些问题可以通过调整声音...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法，包括：对输入音频数据执行语音识别，所述输入音频数据包括向声音系统的语音输入；对输出音频数据的至少一个实例执行语音识别，所述输出音频数据包括由所述声音系统的一个或多个音频扬声器再现的语音；确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的差异；以及当所述差异大于或等于阈值时，确定所述再现的语音的质量不合格。2.根据权利要求1所述的计算机实现的方法，其中所述差异包括从针对输入语音的样本对所述输入音频数据的所述语音识别的结果和针对与所述输入语音的所述样本对应的所述再现的语音的样本对所述输出音频数据的所述语音识别的结果计算的定量值。3.根据权利要求1所述的计算机实现的方法，其中确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的所述差异包括：将对所述输入音频数据的所述语音识别的转录本的文本与对所述输出音频数据的所述至少一个实例的所述语音识别的转录本的文本进行比较；以及确定针对选自包括以下各项的组的所述差异的定量值：不同的字母的数目、不同的单词的数目、以及不同的字母或单词的百分比。4.根据权利要求1所述的计算机实现的方法，其中确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的所述差异包括：将由对所述输入音频数据的所述语音识别确定的第一置信度水平与由对所述输出音频数据的所述至少一个实例的所述语音识别确定的第二置信度水平进行比较，所述第一置信度水平包括指示对所述输入音频数据的所述语音识别的可靠性的置信度度量的值，所述第二置信度水平包括指示对所述输出音频数据的所述至少一个实例的所述语音识别的可靠性的置信度度量的值；以及确定所述第一置信度水平与所述第二置信度水平之间的差异。5.根据任一前述权利要求所述的计算机实现的方法，还包括：响应于确定所述再现的语音的所述质量不合格，执行所述声音系统的一个或多个参数调整以改善所述再现的语音的所述质量。6.根据权利要求5所述的计算机实现的方法，其中执行所述声音系统的所述一个或多个参数调整包括：执行第一参数调整，所述第一参数调整包括将所述声音系统的参数调整定义的增量或调整至目标值；以及响应于确定所述再现的语音的所述质量仍不合格，执行进一步的参数调整，直到预定义条件被满足。7.根据权利要求6所述的计算机实现的方法，其中所述预定义条件选自包括以下项的组：所述再现的语音的所述质量是合格的、所述再现的语音的所述质量被最大化、预定义的一组参数调整已经被执行、所述预定义的一组参数调整已经根据智能参数调整方案被执行、所述预定义的一组参数调整已经根据优化模型被调整、以及定时器到期。
8.根据权利要求5、6或7所述的计算机实现的方法，还包括：基于对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的差异，确定参数调整对所述再现的语音的所述质量的影响，所述输入音频数据和所述输出音频数据包括在所述参数调整之后的输入语音和所述再现的语音，以及存储关系信息，所述关系信息包括与所述参数调整以及对所述再现的语音的所述质量的所述影响相对应的参数和增量，以供使用作为对智能参数调整选择方案或用于优化所述再现的语音的所述质量的机器学习模型的反馈。9.根据任一前述权利要求所述的计算机实现的方法，还包括：确定向所述声音系统的语音输入的质量是否是可接受的，以及响应于确定向所述声音系统的所述语音输入的所述质量不是可接受的，向用户发送消息以做出与向所述声音系统的所述语音输入相关的改变。10.根据权利要求5至8中任一项所述的计算机实现的方法，其中所述一个或多个参数调整中的参数选自包括以下项的组：针对所述声音系统的分量的每个频带的音频增益和音频信道均衡。11.一种装置，包括：处理器和数据存储装置，其中所述处理器被配置为：对输入音频数据执行语音识别，所述输入音频数据包括向声音系统的语音输入；对输出音频数据的至少一个实例执行语音识别，所述输出音频数据包括由所述声音系统的一个或多个音频扬声器再现的语音；确定对所述输入音频数据的所述语音识别的结果与对所述输出音频数据的所述至少一个实例的所述语音识别的结果之间的差异；以及...

【专利技术属性】
技术研发人员：A，
申请(专利权)人：国际商业机器公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人