一种云端语音识别系统及方法技术方案

技术编号:15057919 阅读:73 留言:0更新日期:2017-04-06 03:59
本发明专利技术公开了一种云端语音识别系统和方法,将识别模型分成多个维度,维度包括性别层、年龄层、平台层、方言层、领域层;性别层包括:男、女;所述的年龄层分为多个阶段,例如:7-17岁,18~35岁,36~45岁,45岁以上;所述的平台层包括:IOS、Android、Windows;所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。云端语音识别方法从地域、口音、噪声、年龄、性别、平台等多个维度采样数据;模型选择算法;模型动态更新算法;领域区分算法。有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。

【技术实现步骤摘要】

本专利技术属于语言分析
,尤其涉及一种云端语音识别系统及方法
技术介绍
随着移动互联网、车联网和智能家居的发展,语音识别发挥了越来越重要的作用。另一方面,语音识别技术,特别是DNN(深度神经网络)训练方法的发展,极大在提高了语音识别的准确率,反过来也促进了不同行业的应用。但随着语音应用走向大众,特别是语音云的使用,目标人群未知、目标人群范围广泛,鲁棒性和适应性是难以回避的难题,训练数据与识别数据的不匹配会极大地降低识别准确度。目前的做法是用一个模型识别所有的说话人,在模型建模前收集尽量多的数据,以期达到覆盖范围广的目的。而如需要提高某个人的识别率,需要把这个人的数据和原有数据放在一起重新建模。这种方法有几个弊端:训练数据不可能做到完全覆盖所有说话人,而且大数据量的模型建模困难。因未从说话人的发音特征分布采样数据,训练数据会产生分布不均匀,有些人群口音未覆盖。因未能实现动态更新识别资源,导致识别资源更新周期长,部分用户的识别率不能及时提高。因对不同领域的应用使用同一套识别资源,导致语言模型建模难以选择语料,垂直领域识别难以提高,可能会产生不同领域“此消彼涨”的难题。
技术实现思路
本专利技术的目的在于提供一种云端语音识别系统及方法,旨在解决如何在采样时保证人群口音分布的广泛性和均匀性,如何根据说话人动态更换及更新语音识别资源,如何提高多领域的语音识别率,如何提高多口音的识别率的问题。该方法是这样实现的,该云端语音识别系统包括:性别层、年龄层、平台层、方言层、领域层;用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样;所述的性别层包括:男、女;所述的年龄层分为四个阶段:7~17岁,18~35岁,36~45岁,45岁以上;所述的平台层包括:IOS、Android、Windows;所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合本专利技术还采取如下技术措施:该云端语音识别方法包括以下步骤:步骤一、对人群进行多维度发音特征划分,采样数据;步骤二、利用用户语音和用户标识获取多个维度的信息,确定识别模型。步骤三、对识别资源依据划分进行动态更新;步骤四、利用用户语音识别文本确定领域模型。在步骤一中,根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。所述的地域分布为分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样人群城市;所述的口音分布分别为:粤语、闽语、吴语、赣语、湘语、客家话、官话、普通话;所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场;所述的年龄分布为根据应用的适用人群,预定义采样人群的年龄及比例;所述的男女比例根据1:1比例采样;所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据。所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。所述的领域识别资源选择动态更新的方法有以下三种方式:用户标识在应用层,根据用户注册信息,直接选择识别资源的领域;在用户信息不全时,语音分别送到多个模型,选择置信度较高的模型。语言特征选择领域模型;包括领域词发现算法和领域归类算法;声学特征选择口音模型。所述的云端领域资源动态更新包括更新声学模型和更新语言模型。本专利技术具有的优点和积极效果是:该云端语音识别系统及方法结构简单,使用方便,有效提高了不同地域、不同领域、不同口音、不同性别、不同年龄段人群的语音识别率。附图说明图1是本专利技术实施例提供的云端语音识别系统的结构示意图;图2是本专利技术实施例提供的云端语音识别方法流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。下面结合附图1、2及具体实施例对本专利技术的应用原理作进一步描述。该云端语音识别系统包括:方言层、平台层、年龄层、性别层、领域层;用户标识和用户语言通过口音判别分别对性别层、年龄层、平台层、方言层进行数据采样;所述的性别层包括:男、女;所述的年龄层分为三个阶段:7~17岁,18~35岁,36~45岁,45岁以上;所述的平台层包括:IOS、Android、Windows;所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合该云端语音识别方法包括以下步骤:S101、对多维度人群发音特征进行划分;S102、进行动态更新;S103、对多领域进行架构。在S101中,根据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台六个维度采样数据。所述的地域分布为分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样人群城市;分别将说话人分布定义在8个地区,每个地区选一到两个重点城市作为采样人群城市。地区重点城市示例:东北:哈尔滨、沈阳;华北:北京、济南;西北:西安、兰州;华中:武汉、郑州;华东:南京、上海;华南:广州、南宁;西南:成都、昆明;东南:厦门、南昌;所述的口音分布分别为:粤语、闽语、吴语、赣语、湘语、客家话、官话、普通话;在选择采样时,同时考虑地域分布和口音分布,并对口音的轻重做出区分。为适应不同噪声环境,在采样数据时预定义一些噪声环境,以下是采样数据时的主要噪声环境,所述的噪声分布分别为:车内、地铁、室内、街道、火车站、汽车站、餐厅、会议室、商场;所述的年龄分布为根据应用的适用人群,预定义采样人群的年龄及比例;年龄段在18–35之间,比例为:15%;年龄段在18–35之间,比例为:50%;年龄段在36–45之间,比例为:20%;年龄段在45以上,比例为:15%;所述的男女比例根据1:1比例采样;所述的设备平台根据不同的移动设备平台,在采样时选用不同的平台设备采样数据;平台为iOS,比例为35%;平台为Android,比例为50%;平台为Windows,比例为15%;所述的动态更新包括:领域识别资源选择动态更新和云端领域资源动态更新。所述的领域识别资源选择动态更新的方法有以下三种方式:用户标识在应用层,根据用户本文档来自技高网...

【技术保护点】
一种云端语音识别系统,其特征在于,该云端语音识别系统包括:方言层、平台层、年龄层、性别层、领域层;将识别模型分成多个维度,维度包括性别层、年龄层、平台层、方言层、领域层;所述的性别层包括:男、女;所述的年龄层分为多个阶段;所述的平台层包括:IOS、Android、Windows;所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、客家话口音、官话口音和普通话的一种或多种组合。所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。

【技术特征摘要】
1.一种云端语音识别系统,其特征在于,该云端语音识别系统包括:方言
层、平台层、年龄层、性别层、领域层;
将识别模型分成多个维度,维度包括性别层、年龄层、平台层、方言层、
领域层;
所述的性别层包括:男、女;
所述的年龄层分为多个阶段;
所述的平台层包括:IOS、Android、Windows;
所述的方言层包括粤语口音、闽语口音、吴语口音、赣语口音、湘语口音、
客家话口音、官话口音和普通话的一种或多种组合。
所述的领域层包括音乐类、导航类、地图类、聊天类、交通类、车载类。
2.一种云端语音识别方法,其特征在于,该云端语音识别方法包括以下步
骤:
步骤一、对人群进行多维度发音特征划分,采样数据;
步骤二、利用用户语音和用户标识获取多个维度的信息,确定识别模型。
步骤三、对识别资源依据划分进行动态更新;
步骤四、利用用户语音识别文本确定领域模型。
3.如权利要求2所述的云端语音识别方法,其特征在于,在步骤一中,根
据地域分布、口音分布、噪声分布、年龄分布、男女比例、设备平台划分用户
和采样数据。
4.如权利要求3所述的云端语音识别方法,其特征在于,所述的地域分布

【专利技术属性】
技术研发人员:胡云燎何国涛李全忠蒲瑶
申请(专利权)人:普强信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1