使用来自分离的音频输入的语音内容的数据分析和扩张的语音识别制造技术

技术编号:37505580 阅读:26 留言:0更新日期:2023-05-07 09:41
本公开包括使用来自分离的音频输入的语音内容的扩张用于语音识别。在CNN(卷积神经网络)处接收来自扬声器的音频输入和基于外部噪声对音频输入的预测变化。在CNN中,将日志应用于音频输入以预测来自扬声器的语音内容的扩张如何改变音频输入以生成CNN输出。从CNN输出确定所得扩张。确定扩张的CNN输出的单词错误率,以确定语音到文本输出的准确度。设置调整参数以基于单词错误率改变扩张的范围,并且基于调整参数调整CNN输出的所得扩张以降低单词错误率。错误率。错误率。

【技术实现步骤摘要】
【国外来华专利技术】使用来自分离的音频输入的语音内容的数据分析和扩张的语音识别

技术介绍

[0001]本公开涉及使用计算机对来自音频输入的语音内容进行语音识别的技术。更具体地,音频输入包括与音频输入分离的语音内容。
[0002]使用计算机的技术可用于将人类语音转换成文本。人类语音可以包括例如单独地或成组地说出的词语、唱歌。在人类语音期间,语音输出或被转换成文本的语音输出信号的转换可能是具有挑战性的。例如,当声音改变或不如单词的典型发音(phonetics)常见时,语音识别和转换可能是具有挑战性的。例如,声音可以是拉长的或者与其他一种或多种噪声混合。在一个示例中,当扬声器正在说话时可能存在背景噪声。在另一示例中,一组扬声器可能正在讲话,并且可能存在扬声器的重叠。在另一示例中,背景噪声可在一个或多个扬声器讲话时发生。在另一示例中,扬声器可以无意地、或有意地为了强调、或作为非常规或非常规语音模式的一部分、或作为口音的一部分而改变一个或多个单词的典型发音。当扬声器说话时,这种改变的和/或非典型声音导致用于语音识别和从语音到文本的转换的挑战性语音。

技术实现思路

[0003]本公开认识到与用于使用来自交错音频输入的语音内容的扩张(dilation)进行语音识别的当前技术相关的缺点和问题。
[0004]本专利技术分析来自交错音频输入的语音内容以用于多个扬声器中的每一个的语音识别,并且可以提供从语音内容到文本的转换。例如,当语音内容包括来自扬声器的用于从语音到文本的转换的改变的和/或非典型的声音时,当声音改变或不如典型的单词发音常见时,语音识别和转换的挑战可以使用本专利技术来克服。
[0005]例如,当艺术家演唱歌曲时,可能出现一个问题,一些单词可能以遵循谐波而不是普通发音的方式改变或变更。在另一个示例中,在嘈杂的环境中,声波和声音的混合可能导致转换时的单词错误率增加。例如,在大型事件中,大群人的吼叫或体育赛事声音可以遮挡语音标记。本专利技术包括使用语音信号的扩张对语音输入的语音识别来增加在尝试识别单词或分析语音内容以识别一个或多个单词之前的采样或语音采样之间的空间。在根据本专利技术的一个示例中,可以训练具有不同扩张参数的卷积神经网络(CNN)并将其应用于这些问题。此外,预测的环境噪声和语音类型可以指示使用哪种扩张。另外,在另一示例中,可以通过机器学习向每个扬声器分配扩张参数。在会话或歌曲的分组设置中,参数的扩张可以由该组基于每个扬声器的幅度一起加权。
[0006]本专利技术包括预测未来每个人类扬声器(human speaker)的音频信号或语音内容。在一个示例中,本专利技术可以预测扬声器的音频信号或语音内容将如何基于外部噪声而改变。输出可以被输入到CNN而没有扩张,以预测语音内容的扩张将如何基于未来趋势而改变。可以确定所得到的扩张并将其应用于语音到文本转换。
[0007]在根据本专利技术的一个方面中,一种用于语音识别的计算机实现的方法使用来自分
离的音频输入的语音内容的扩张,其包括接收音频输入,以及在CNN(卷积神经网络)处接收基于外部噪声的音频输入的预测变化,该音频输入具有来自扬声器的语音内容。该方法包括在CNN中对音频输入应用日志(diarization)以预测来自扬声器的语音内容的扩张如何改变音频输入以生成CNN输出。确定来自CNN输出的所得扩张,CNN输出的所得扩张包括分离音频输入的声音。确定扩张的CNN输出的单词错误率,以确定语音到文本输出的准确度。设置调整参数以基于所述单词错误率来改变所述扩张的范围。该方法包括基于调整参数来调整CNN输出的所得扩张以降低单词错误率。
[0008]本专利技术的一个优点包括当使用根据本专利技术的方法利用语音识别转换来自分离的音频输入的语音内容以便将语音从音频输入转换成文本时,降低了单词错误率。
[0009]在相关方面,该方法还包括:基于应用于所述扬声器的所述经调整的所得扩张的所述学习修改来从所述音频输入识别来自所述扬声器的语音内容。
[0010]在相关方面,该方法包括从所识别的语音内容生成文本。
[0011]在相关方面,在不扩张语音内容的情况下接收音频输入和预测的改变。
[0012]在相关方面,该方法包括使用网格搜索基于单词错误率来调整音频输入的所得扩张以降低单词错误率。
[0013]在相关方面,该方法包括:在计算机处接收针对扬声器的预测音频输入,所述预测音频输入包括所述扬声器的语音内容;生成针对所述预测音频输入的环境刺激音频输入;以及基于环境刺激音频输入来预测针对扬声器的音频输入的改变。
[0014]在相关方面,该方法还包括:与社交网络共享所述预测音频输入的调整后的所得扩张;从对所述预测音频输入的调整的所得扩张的共享生成学习修改;将所述学习修改应用于针对所述扬声器的所述经调整的所得扩张;基于应用于针对所述扬声器的所述经调整的所得扩张的所述学习修改来从所述音频输入识别来自所述扬声器的语音内容;以及从所识别的语音内容生成文本。
[0015]在相关方面,该方法还包括:与社交网络共享所述预测音频输入的调整后的所得扩张;从对所述预测音频输入的调整后的所得扩张的共享生成学习修改;以及将学习修改应用于针对扬声器的经调整的所得扩张。
[0016]在相关方面,该方法还包括:基于应用于针对所述扬声器的所述经调整的所得扩张的所述学习修改来从所述音频输入识别来自所述扬声器的语音内容。
[0017]在相关方面,该方法还包括从所识别的语音内容生成文本。
[0018]在相关方面,该方法还包括:在所述CNN处接收用于多个扬声器中的一个扬声器的语音内容的扩张参数,所述扩张参数是从来自多个扬声器的音频输入导出的。
[0019]在相关方面,来自多个扬声器的音频输入是交错音频输入。
[0020]在根据本专利技术的另一方面中,一种用于语音识别的系统使用来自分离音频输入的语音内容的扩张,其包括计算机系统。该计算机系统包括;计算机处理器、计算机可读存储介质以及存储在所述计算机可读存储介质上的程序指令,所述程序指令可由所述处理器执行以使所述计算机系统执行以下功能;在CNN(卷积神经网络)处接收音频输入,并且接收基于外部噪声对所述音频输入的预测改变,所述音频输入具有来自扬声器的语音内容;在所述CNN中,将日志应用于所述音频输入以预测来自所述扬声器的语音内容的扩张如何改变所述音频输入以生成CNN输出;从所述CNN输出确定所得扩张,所述CNN输出的所述所得扩张
包括分离所述音频输入的所述声音;确定所述扩张的CNN输出的单词错误率,以确定语音到文本输出的准确度;基于所述单词错误率来设置调整参数以改变所述扩张的范围;以及基于所述调整参数来调整所述CNN输出的所得扩张以降低所述单词错误率。
[0021]本专利技术的一个优点包括当使用根据本专利技术的方法利用语音识别转换来自分离的音频输入的语音内容以便将语音从音频输入转换成文本时,降低了单词错误率。
[0022]在相关方面,所述系统还包括:基于应用于针对所述扬声器的所述经调整的所得扩张的所述学习修改来从所述音频输入识别来自所述扬声器本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种用于使用来自分离(单一)的音频输入的语音内容的扩张进行语音识别的计算机实现的方法,包括:在CNN(卷积神经网络)处接收音频输入,并且接收基于外部噪声针对所述音频输入的预测改变,所述音频输入具有来自扬声器的语音内容;在所述CNN中将日志应用于所述音频输入以预测来自所述扬声器的语音内容的扩张如何改变所述音频输入以生成CNN输出;从所述CNN输出确定所得扩张,所述CNN输出的所得扩张包括分离所述音频输入的声音;确定所述扩张的CNN输出的单词错误率以确定语音到文本输出的准确度;基于所述单词错误率来设置调整参数以改变所述扩张的范围;以及基于所述调整参数来调整所述CNN输出的所得扩张以减少所述单词错误率。2.如权利要求1所述的方法,还包括:基于应用于针对扬声器的经调整的所得扩张的学习修改来从所述音频输入识别来自扬声器的语音内容。3.如权利要求2所述的方法,还包括:从所识别的语音内容生成文本。4.如权利要求1所述的方法,其中,所述音频输入和所预测的改变是在没有扩张所述语音内容的情况下接收的。5.如权利要求1所述的方法,还包括:使用网格搜索来基于所述单词错误率调整所述音频输入的所得扩张以降低所述单词错误率。6.如权利要求1所述的方法,还包括:在计算机处接收针对扬声器的预测音频输入,所述预测音频输入包括所述扬声器的语音内容;生成针对所述预测音频输入的环境刺激音频输入;以及基于环境刺激音频输入来预测所述扬声器的所述音频输入的变化。7.如权利要求6所述的方法,还包括:与社交网络共享所述预测音频输入的经调整的所得扩张;从对所述预测音频输入的经调整的所得扩张的共享生成学习修改;将所述学习修改应用于所述扬声器的经调整的所得扩张;基于应用于针对扬声器的经调整的所得扩张的学习修改来从所述音频输入识别来自所述扬声器的语音内容;以及从所识别的语音内容生成文本。8.如权利要求1所述的方法,还包括:与社交网络共享所述预测音频输入的经调整的所得扩张;从所述预测音频输入的经调整的所得扩张的共享生成学习修改;以及将所述学习修改应用于针对所述扬声器的经调整的所得扩张。9.如权利要求8所述的方法,还包括:基于应用于针对扬声器的经调整的所得扩张的学习修改来从所述音频输入识别来自
所述扬声器的语音内容。10.如权利要求9所述的方法,还包括:从所识别的语音内容生成文本。11.如权利要求1所述的方法,还包括:在所述CNN处接收用于多个扬声器中的一个扬声器的语音内容的扩张参数,所述扩张参数是从来自多个扬声器的音频输入导出的。12.如权利要求11所述的方法,其中来自所述多个扬声器的所述音频输入是交错音频输入。13.一种用于使用来自分离的音频输入的语音内容的扩张进行语音识别的系统,包括:计算机系统,包括;计算机处理器、计算机可读存储介质以及存储在所述计算机可读存储介质上的程序指令,所述程序指令可由所述处理器执行以使所述计算机系统执行以下功能;在CNN(卷积神经网络)处接收音频输入,并且接收基于外部噪声针对所述音频输入的预测改变,所述音频输入具有来自扬声器的语音内容;在所述CNN中将日志应用于所述音频输入以预测来自所述扬声器的语音内容的扩张如何改变所述音频输入以生成CNN...

【专利技术属性】
技术研发人员:A
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1