一种云端语音识别系统及方法技术方案

技术编号：15057919 阅读：73 留言：0更新日期：2017-04-06 03:59

本发明专利技术公开了一种云端语音识别系统和方法，将识别模型分成多个维度，维度包括性别层、年龄层、平台层、方言层、领域层；性别层包括：男、女；所述的年龄层分为多个阶段，例如：7-17岁，18～35岁，36～45岁，45岁以上；所述的平台层包括：IOS、Android、Windows；所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。云端语音识别方法从地域、口音、噪声、年龄、性别、平台等多个维度采样数据；模型选择算法；模型动态更新算法；领域区分算法。有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于语言分析
，尤其涉及一种云端语音识别系统及方法。
技术介绍
随着移动互联网、车联网和智能家居的发展，语音识别发挥了越来越重要的作用。另一方面，语音识别技术，特别是DNN(深度神经网络)训练方法的发展，极大在提高了语音识别的准确率，反过来也促进了不同行业的应用。但随着语音应用走向大众，特别是语音云的使用，目标人群未知、目标人群范围广泛，鲁棒性和适应性是难以回避的难题，训练数据与识别数据的不匹配会极大地降低识别准确度。目前的做法是用一个模型识别所有的说话人，在模型建模前收集尽量多的数据，以期达到覆盖范围广的目的。而如需要提高某个人的识别率，需要把这个人的数据和原有数据放在一起重新建模。这种方法有几个弊端：训练数据不可能做到完全覆盖所有说话人，而且大数据量的模型建模困难。因未从说话人的发音特征分布采样数据，训练数据会产生分布不均匀，有些人群口音未覆盖。因未能实现动态更新识别资源，导致识别资源更新周期长，部分用户的识别率不能及时提高。因对不同领域的应用使用同一套识别资源，导致语言模型建模难以选择语料，垂直领域识别难以提高，可能会产生不同领域“此消彼涨”的难题。
技术实现思路
本专利技术的目的在于提供一种云端语音识别系统及方法，旨在解决如何在采样时保证人群口音分布的广泛性和均匀性，如何根据说话人动态更换及更新语音识别资源，如何提高多领域的语音识别率，如何提高多口音的识...

【技术保护点】
一种云端语音识别系统，其特征在于，该云端语音识别系统包括：方言层、平台层、年龄层、性别层、领域层；将识别模型分成多个维度，维度包括性别层、年龄层、平台层、方言层、领域层；所述的性别层包括：男、女；所述的年龄层分为多个阶段；所述的平台层包括：IOS、Android、Windows；所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。

【技术特征摘要】
1.一种云端语音识别系统，其特征在于，该云端语音识别系统包括：方言
层、平台层、年龄层、性别层、领域层；
将识别模型分成多个维度，维度包括性别层、年龄层、平台层、方言层、
领域层；
所述的性别层包括：男、女；
所述的年龄层分为多个阶段；
所述的平台层包括：IOS、Android、Windows；
所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、
客家话口音、官话口音和普通话的一种或多种组合。
所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。
2.一种云端语音识别方法，其特征在于，该云端语音识别方法包括以下步
骤：
步骤一、对人群进行多维度发音特征划分，采样数据；
步骤二、利用用户语音和用户标识获取多个维度的信息，确定识别模型。
步骤三、对识别资源依据划分进行动态更新；
步骤四、利用用户语音识别文本确定领域模型。
3.如权利要求2所述的云端语音识别方法，其特征在于，在步骤一中，根
据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台划分用户
和采样数据。
4.如权利要求3所述的云端语音识别方法，其特征在于，所述的地域分布

【专利技术属性】
技术研发人员：胡云燎，何国涛，李全忠，蒲瑶，
申请(专利权)人：普强信息技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人