通过无线电广播的持续性训练和发音改进制造技术

技术编号:20684192 阅读:12 留言:0更新日期:2019-03-27 19:59
处理器在车辆中接收广播,从广播中选择音频数据,处理从广播中选择的音频数据,基于处理确定选择的音频数据的语音模式,从广播中选择和选择的音频数据相似的音频数据的附加实例,处理来自广播的音频数据的附加实例,确定音频数据的附加实例的语音模式,以及从选择的音频数据的语音模式和音频数据的附加实例的语音模式中选择多个语音模式。发射机将多个语音模式传送至服务器,以基于对多个语音模式的统计分析确定选择的音频数据的最优发音并将选择的音频数据的最优发音添加到用来在车辆中识别语音的数据库。

【技术实现步骤摘要】
通过无线电广播的持续性训练和发音改进引言在此章节中提供的信息是用于大体呈现本公开背景的目的。当前署名的专利技术人的工作就其在本章节所描述的以及在提交时可以不另外被作为是现有技术的多个方面的描述而言既不明确地也不隐含地被认可为是本公开的现有技术。本公开大体上涉及语音识别系统,并且更具体地,涉及通过无线电广播用于语音识别系统的持续性训练和发音改进。语音(Speech)识别系统(也被称为语音(voice)识别系统)在车辆、个人计算设备等等中得到使用。例如,在车辆中,驾驶员可以使用这些系统来发出发起电话呼叫的语音命令、向导航系统发出搜索感兴趣地方的语音命令,等等。在个人计算设备中,例如计算机和智能电话,用户可以向浏览器发出在因特网上冲浪的语音命令。在其他实例中,一些软件程序可以采用用户的口述内容(即,将用户的语音转换成文本)。
技术实现思路
一种系统包括处理器,所述处理器配置为:在车辆中接收广播,从在车辆中接收的广播选择音频数据,基于处理确定选择的音频数据的语音模式,从广播中选择和选择的音频数据相似的音频数据的附加实例,处理来自广播的音频数据的附加实例,确定音频数据的附加实例的语音模式,以及从选择的音频数据的语音模式和音频数据的附加实例的语音模式中选择多个语音模式。该系统进一步包括发射机,该发射机被配置将多个语音模式传送至服务器,以基于对多个语音模式的统计分析确定选择的音频数据的最优发音,并将选择的音频数据的该最优发音添加到用来在车辆中识别语音的数据库。在其他特征中,车辆中的广播包括无线电广播。处理器被配置为从车辆的乘员接收语音输入。发射机被配置为将对应于该语音输入的数据传送至服务器。发射机被配置为通过蜂窝网络将对应于语音数据的输入作为音频或作为语音模式传送至服务器。系统进一步包括接收机,该接收机被配置为根据服务器利用数据库对对应于语音输入的数据的处理,从服务器接收对语音输入的响应。该响应基于利用数据库对语音输入的正确识别,而不管与该语音输入相关联的发音如何。在其他特征中,处理器被配置为从选择的音频数据的语音模式和音频数据的附加实例的语音模式中选择在预定范围内匹配的多个语音模式。在其他特征中,统计分析包括蒙特卡洛模拟,并且最优发音基于蒙特卡洛模拟的结果的分布的平均值是否大于或等于预定阈值来确定。在其他特征中,数据库包括针对包括选择的音频数据的数据类型的语音词典和语言模型中的一个或多个。在其他特征中,选择的音频数据包括人的姓名、地方的名称、人的位置、地方的位置、音乐专辑的名称、歌曲的标题或者艺术家的姓名。在其他特征中,处理器被配置为利用字素到音素对应确定选择的音频数据的语音模式和音频数据的附加实例的语音模式。在其他特征中,系统进一步包括接收机,该接收机被配置为基于数据库从服务器接收对车辆乘员的语音请求的响应。发射机和接收机被配置为通过蜂窝网络与服务器进行通信。在其他特征中,系统进一步包括接收机,该接收机被配置为基于数据库从服务器接收对车辆乘员的语音请求的响应。该语音请求包括:人的姓名、地方的名称、人的位置、地方的位置、音乐专辑的名称、歌曲的标题或者艺术家的姓名。在其他特征中,处理器被配置从车辆乘员接收语音输入。并且基于利用数据库对语音输入的正确识别提供响应,而不管与该语音输入相关联的发音如何。在其他特征中,系统进一步包括存储器,该存储器配置为当与服务器进行通信的网络不可用时存储多个语音模式。发射机被配置为当网络变得可用时将存储在存储器中的多个语音模式传送至服务器。在其他特征中,系统进一步包括在车辆中的数据库版本。当与服务器进行通信的网络不可用时,处理器被配置为:从车辆乘员接收语音输入,利用车辆中的数据库版本正确地识别该语音输入,而不管和该语音输入相关联的发音如何,以及基于正确识别的语音输入提供对该语音输入的响应。语音输入包括呼叫感兴趣的人或地方的语音命令或导航命令,并且响应包括执行该语音命令或导航命令。在其他特征中,处理器被配置为:从车辆乘员接收请求关于人或地方的信息的语音输入,以及基于利用数据库对语音输入的正确识别提供对该语音输入的响应,而不管与该语音输入相关联的发音如何。在其他特征中,处理器被配置为:从车辆乘员接收呼叫感兴趣的人或地方的语音命令,以及基于利用数据库对语音命令的正确识别执行该语音命令而不管与该语音命令相关联的发音如何。在其他特征中,处理器被进一步配置为处理车辆乘员的语音输入并基于车辆乘员的该语音输入控制车辆。在其他特征中,处理器被配置为:接收包括控制车辆的操作的语音命令的输入,以及基于利用数据库对输入的正确识别控制车辆的操作而不管和该输入相关联的发音如何。车辆的操作包括:使车辆行驶到某位置;控制车辆的速度;或者控制车辆的电气、电子、机械或机电系统。通过详细描述、权利要求书以及附图,本公开的其他应用领域将变得显而易见。详细描述和具体实例仅旨在用于说明的目的,而并不旨在限制本公开的范围。附图说明通过详细描述和附图将能更充分地理解本公开,其中:图1是通过车辆中的无线电广播为语音识别系统提供持续性训练和发音改进的方法的流程图;图2是用于从车辆中的广播采集的数据找到匹配并缓冲该匹配数据以用于统计分析的方法的流程图;图3是用于通过对缓冲器中累积的匹配数据进行统计分析(例如,蒙特卡洛模拟)为从广播采集的数据找到最优发音的方法的流程图;图4是用于部分在车辆中和/或在云端进行图1至图3中所示的语音识别以及用于在云端进行统计分析的方法的流程图;图5是用于利用经过如图1至图4中所示训练的图6至图9中所示的语音识别系统来识别车辆乘员的语音的方法的流程图;图6是包括通过分布式通信系统与语音识别系统进行通信的多个车辆的系统的示意图;图7是车辆的示意图,该车辆包含用于广播音频的包括一个或多个来源的多媒体系统以及实施图1至图5中所示的一种或多种方法的语音处理模块;图8是图7中所示的语音处理模块的简化功能框图;以及图9是图6中所示的语音识别系统的简化功能框图。在图中,附图标记可以重复使用来标识类似和/或相同的元件。具体实施方式本公开涉及利用现场广播(例如,车辆中的无线电广播)来改进用于语音(voice)或语音(speech)识别的语音词典和语言模型。具体地,根据本公开的语音识别系统和方法通过收听车辆中的无线电广播来学习新词语并学习针对现有词语的替代发音。本公开被组织如下。首先,提供了对本公开的概述。随后,参考图1至图9描述了根据本公开的系统和方法的各种实例。语音识别广泛地包括识别语音的静态部分和动态部分。静态部分通常是施加于动态部分的动作。例如,在语音命令“呼叫[姓名]”中,动作“呼叫”是静态部分,且[姓名]是动态部分。语音命令或语音输入的其他实例包括“找到[位置名称,街道名称等]”,“带我到[商店名称,饭店名称等]”,等等。动态部分的发音因人而异。例如,西方国家的大部分人的姓名一般具有明确和识别度高的发音。而对于世界其他地方的人的姓名来说情况并非如此。此外,一些人的姓名、感兴趣地方或兴趣点(POI)、街道、食物等并不完全如书写那样发音。因此,这些名称(例如,密歇根沙勒沃伊市)、街道、饭店等的发言可以因人而异。在语言学中,发音表现为语音表达的序列。语音表达的音译用作语音识别的文本令牌。动态数据(即表示语音的动态部分的数据)本文档来自技高网...

【技术保护点】
1.一种系统,包括:处理器,所述处理器配置为:在车辆中接收广播;从在所述车辆中接收的所述广播选择音频数据;处理从所述广播选择的所述音频数据;基于所述处理确定所述选择的音频数据的语音模式;从所述广播选择和所述选择的音频数据相似的音频数据的附加实例;处理来自所述广播的所述音频数据的附加实例;确定所述音频数据的附加实例的语音模式;以及从所述选择的音频数据的语音模式和所述音频数据的附加实例的语音模式中选择多个语音模式;以及发射机,所述发射机被配置将所述多个语音模式传送至服务器,以基于对所述多个语音模式的统计分析确定所述选择的音频数据的最优发音,并将所述选择的音频数据的所述最优发音添加到用来在所述车辆中识别语音的数据库。

【技术特征摘要】
2017.09.18 US 15/7073151.一种系统,包括:处理器,所述处理器配置为:在车辆中接收广播;从在所述车辆中接收的所述广播选择音频数据;处理从所述广播选择的所述音频数据;基于所述处理确定所述选择的音频数据的语音模式;从所述广播选择和所述选择的音频数据相似的音频数据的附加实例;处理来自所述广播的所述音频数据的附加实例;确定所述音频数据的附加实例的语音模式;以及从所述选择的音频数据的语音模式和所述音频数据的附加实例的语音模式中选择多个语音模式;以及发射机,所述发射机被配置将所述多个语音模式传送至服务器,以基于对所述多个语音模式的统计分析确定所述选择的音频数据的最优发音,并将所述选择的音频数据的所述最优发音添加到用来在所述车辆中识别语音的数据库。2.根据权利要求1所述的系统,其中:所述处理器被配置从所述车辆的乘员接收语音输入;以及所述发射机被配置为将对应于所述语音输入的数据传送至所述服务器,所述系统进一步包括:接收机,所述接收机被配置为根据所述服务器利用所述数据库对对应于所述语音输入的所述数据的处理,从所述服务器接收对所述语音输入的响应,其中所述响应基于利用所述数据库对所述语音输入的正确识别,而不管与所述语音输入相关联的发音如何。3.根据权利要求1所述的系统,其中所述统计分析包括蒙特卡洛模拟,并且其中所述最优发音基于所述蒙特卡洛模拟的结果的分布的平均值是否大于或等于预定阈值来确定。4.根据权利要求1所述的系统,其中所述数据库包括语音词典和针对包括所述选择的音频数据的数据类型的语言模型中的一个或多个。5.根...

【专利技术属性】
技术研发人员:G·塔瓦尔K·R·布克X·F·赵
申请(专利权)人:通用汽车环球科技运作有限责任公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1