用于训练声音识别模型数据库的方法和装置制造方法及图纸

技术编号：13191935 阅读：70 留言：0更新日期：2016-05-11 19:26

电子设备(102)将单个声音输入与一系列噪声样本中的每一个进行数字地组合。每个噪声样本是从不同音频环境(例如，街道噪声、杂音、车内噪声)得到的。声音输入/噪声样本组合被用于对VR模型数据库进行训练，而无需用户(104)必须在每个不同环境中重复声音输入。在一个变型中，电子设备(102)将用户的声音输入传送到维护并训练VR模型数据库(308)的服务器(301)。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本公开涉及语音识别，并且更具体地说，涉及用于训练声音识别数据库的方法和设备。
技术介绍
虽然语音识别已经存在了几十年，但是语音识别软件和硬件的质量最近才达到足以吸引大量消费者的足够高的水平。近年来语音识别已经变得非常流行的一个领域是智能电话和平板计算机行业。使用启用语音识别的设备，消费者可以仅使用声音命令来执行如拨打电话、写邮件、以及使用GPS导航这样的任务。然而，这种设备中的语音识别远远不够完善。语音识别引擎典型地依赖于能够识别声音发声的音素或命令数据库。然而，用户可能需要“训练”音素或命令数据库以识别出他或她的语音特征一一口音、经常发错音的词和音节、音调特征、节奏等等。然而，即使在训练之后，音素或命令数据库可能也不是在所有音频环境中都是准确的。例如，背景噪声的存在可降低语音识别准确性。【附图说明】虽然所附权利要求阐述了具有特殊性的本技术的特征，但是结合附图从后面的【具体实施方式】可以更好地理解这些技术，其中:图1示出了对着在附图中被描绘为移动设备的电子设备说话的用户。图2示出了图1的电子设备的示例组件。图3示出了可以在其上实现各个实施例的架构。图4-6示出了可以根据本公开的实施执行的步骤。【具体实施方式】本公开阐述了用于训练基于噪声的声音识别模型数据库的方法和装置。如这里所使用的术语“基于噪声的声音识别模型数据库”(简称为“VR模型数据库”)是指用作基于噪声的音素数据库、用作命令数据库、或者用作这两者的数据库。本公开的各个实施例包括训练VR模型数据库的手动和自动方法。本公开的手动实施例包括直接训练方法，在该直接训练方法中电子设备(还被称为“设...

【技术保护点】
一种方法，包括：记录发声；将所记录的发声与多个先前记录的噪声样本中的一个数字地组合；基于所述数字组合，对声音识别模型数据库(308)进行训练；以及对所述多个先前记录的噪声样本的其余的每一个，使用相同的所记录的发声来重复所述组合和训练步骤。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员：约翰·R·梅洛尼，约耳·A·克拉克，约瑟夫·C·德怀尔，阿德里安·舒斯特，斯内海特哈·辛加拉朱，罗伯特·A·茹雷克，
申请(专利权)人：谷歌技术控股有限责任公司，
类型：发明
国别省市：美国;US

全部详细技术资料下载我是这个专利的主人