【技术实现步骤摘要】
【国外来华专利技术】使用来自分离的音频输入的语音内容的数据分析和扩张的语音识别
技术介绍
[0001]本公开涉及使用计算机对来自音频输入的语音内容进行语音识别的技术。更具体地,音频输入包括与音频输入分离的语音内容。
[0002]使用计算机的技术可用于将人类语音转换成文本。人类语音可以包括例如单独地或成组地说出的词语、唱歌。在人类语音期间,语音输出或被转换成文本的语音输出信号的转换可能是具有挑战性的。例如,当声音改变或不如单词的典型发音(phonetics)常见时,语音识别和转换可能是具有挑战性的。例如,声音可以是拉长的或者与其他一种或多种噪声混合。在一个示例中,当扬声器正在说话时可能存在背景噪声。在另一示例中,一组扬声器可能正在讲话,并且可能存在扬声器的重叠。在另一示例中,背景噪声可在一个或多个扬声器讲话时发生。在另一示例中,扬声器可以无意地、或有意地为了强调、或作为非常规或非常规语音模式的一部分、或作为口音的一部分而改变一个或多个单词的典型发音。当扬声器说话时,这种改变的和/或非典型声音导致用于语音识别和从语音到文本的转换的挑战性语音。
技术实现思路
< ...
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种用于使用来自分离(单一)的音频输入的语音内容的扩张进行语音识别的计算机实现的方法,包括:在CNN(卷积神经网络)处接收音频输入,并且接收基于外部噪声针对所述音频输入的预测改变,所述音频输入具有来自扬声器的语音内容;在所述CNN中将日志应用于所述音频输入以预测来自所述扬声器的语音内容的扩张如何改变所述音频输入以生成CNN输出;从所述CNN输出确定所得扩张,所述CNN输出的所得扩张包括分离所述音频输入的声音;确定所述扩张的CNN输出的单词错误率以确定语音到文本输出的准确度;基于所述单词错误率来设置调整参数以改变所述扩张的范围;以及基于所述调整参数来调整所述CNN输出的所得扩张以减少所述单词错误率。2.如权利要求1所述的方法,还包括:基于应用于针对扬声器的经调整的所得扩张的学习修改来从所述音频输入识别来自扬声器的语音内容。3.如权利要求2所述的方法,还包括:从所识别的语音内容生成文本。4.如权利要求1所述的方法,其中,所述音频输入和所预测的改变是在没有扩张所述语音内容的情况下接收的。5.如权利要求1所述的方法,还包括:使用网格搜索来基于所述单词错误率调整所述音频输入的所得扩张以降低所述单词错误率。6.如权利要求1所述的方法,还包括:在计算机处接收针对扬声器的预测音频输入,所述预测音频输入包括所述扬声器的语音内容;生成针对所述预测音频输入的环境刺激音频输入;以及基于环境刺激音频输入来预测所述扬声器的所述音频输入的变化。7.如权利要求6所述的方法,还包括:与社交网络共享所述预测音频输入的经调整的所得扩张;从对所述预测音频输入的经调整的所得扩张的共享生成学习修改;将所述学习修改应用于所述扬声器的经调整的所得扩张;基于应用于针对扬声器的经调整的所得扩张的学习修改来从所述音频输入识别来自所述扬声器的语音内容;以及从所识别的语音内容生成文本。8.如权利要求1所述的方法,还包括:与社交网络共享所述预测音频输入的经调整的所得扩张;从所述预测音频输入的经调整的所得扩张的共享生成学习修改;以及将所述学习修改应用于针对所述扬声器的经调整的所得扩张。9.如权利要求8所述的方法,还包括:基于应用于针对扬声器的经调整的所得扩张的学习修改来从所述音频输入识别来自
所述扬声器的语音内容。10.如权利要求9所述的方法,还包括:从所识别的语音内容生成文本。11.如权利要求1所述的方法,还包括:在所述CNN处接收用于多个扬声器中的一个扬声器的语音内容的扩张参数,所述扩张参数是从来自多个扬声器的音频输入导出的。12.如权利要求11所述的方法,其中来自所述多个扬声器的所述音频输入是交错音频输入。13.一种用于使用来自分离的音频输入的语音内容的扩张进行语音识别的系统,包括:计算机系统,包括;计算机处理器、计算机可读存储介质以及存储在所述计算机可读存储介质上的程序指令,所述程序指令可由所述处理器执行以使所述计算机系统执行以下功能;在CNN(卷积神经网络)处接收音频输入,并且接收基于外部噪声针对所述音频输入的预测改变,所述音频输入具有来自扬声器的语音内容;在所述CNN中将日志应用于所述音频输入以预测来自所述扬声器的语音内容的扩张如何改变所述音频输入以生成CNN...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。