语音识别系统及方法、客户端设备及云端服务器技术方案

技术编号：14872434 阅读：133 留言：0更新日期：2017-03-23 20:13

本发明专利技术公开一种语音识别系统，至少包括：语音输入模块，用于当启用实时通话或语音录入功能时，实时输入用户的语音；特征提取模块，用于从所输入的用户语音中提取语音特征；模型训练模块，用于根据所述语音特征以及预设的规则，建立对应的声学和语言模型；以及更新模块，用于保存并更新所述声学和语言模型到一个模型数据库中。本发明专利技术还提供一种语音识别方法、客户端设备以及云端服务器。

全部详细技术资料下载

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别领域，尤其涉及一种语音识别系统及方法和具有语音识别功能的客户端设备及云端服务器。
技术介绍
“大词汇连续语音识别”(LargeVocabularyContinuousSpeechRecognition，LVCSR，简称“语音识别”)，就是由计算机根据人的连续声音信号中所蕴涵的语言信息，识别出某段语音对应的是哪些文字的过程。大词汇连续汉语语音识别器已经取得了很大的进展，对标准普通话，识别器的准确率可以达到95％以上。但是，汉语的方言问题是汉语语音识别面临的主要问题。由于在中国大部分人的普通话都带有一定的方言背景，在这样的情况下，大部分的语音识别器的性能都会大大下降，甚至无法使用。当前包括苹果公司的Siri、中国的科大讯飞等设备和软件可以提供语音输入功能，但是语音识别受用户个人发音的影响，导致语音识别时准确率受到很大影响，进而影响了语音识别功能的适用。另外，大量的非智能客户端设备，在使用时其自带的语音操控功能，也由于语音输入时识别率的问题，而影响到其语音功能的适用，例如汽车中的语音操作功能、蓝牙耳机、门铃等设备的语音操控等。目前很多识别器对方言背景对语音识别器性能造成的影响是用数据库方法去消除或减弱的，就是说，当已经有一个对标准普通话进行识别的语音识别器，需要对带某种方言背景的普通话进行识别时，采用的方法为：收集大量与该方言有关的第一语音数据库，然后利用已有的声学模型训练方法去重新训练声学模型，或利用已有的说话人自适应方法对声学模型进行自适应。这种方法的缺点是：(1)收集带方言背景的数据库的工作量非常巨大，对于汉语这么多的方言，数据库的...
<a href="http://www.xjishu.com/zhuanli/21/201580031165.html" title="语音识别系统及方法、客户端设备及云端服务器原文来自X技术">语音识别系统及方法、客户端设备及云端服务器</a>

【技术保护点】
一种语音识别系统，其特征在于，所述系统至少包括：语音输入模块，用于当启用实时通话或语音录入功能时，实时输入用户的语音；特征提取模块，用于从所输入的用户语音中提取语音特征；模型训练模块，用于根据所述语音特征以及预设的规则，建立对应的声学和语言模型；以及更新模块，用于保存并更新所述声学和语言模型到一个模型数据库中。

【技术特征摘要】
【国外来华专利技术】1.一种语音识别系统，其特征在于，所述系统至少包括：语音输入模块，用于当启用实时通话或语音录入功能时，实时输入用户的语音；特征提取模块，用于从所输入的用户语音中提取语音特征；模型训练模块，用于根据所述语音特征以及预设的规则，建立对应的声学和语言模型；以及更新模块，用于保存并更新所述声学和语言模型到一个模型数据库中。2.如权利要求1所述的语音识别系统，其特征在于，所述特征提取模块将提取到的语音特征实时保存在一个第一语音数据库中，所述模型训练模块定时或定量从所述第一语音数据库中提取所述语音特征以进行模型训练。3.如权利要求2所述的语音识别系统，其特征在于，所述特征提取模块、模型训练模块以及更新模块集成在一个云端服务器中，所述云端服务器包括对应不同用户的多个私有云模块，所述特征提取模块提取的特定语音特征保存到对应的私有云模块下，并通过所述模型训练模块和更新模块建立模型和更新，所述识别模块则分别识别不同云模块下的语音数据。4.如权利要求1所述的语音识别系统，进一步包括：识别模块，用于根据模型数据库中的所述声学和语言模型，判断是否能够识别所述语音特征，如果能够识别，则生成携带控制命令的识别结果，否则，将无法识别的其他语音特征存储到一个第一语音数据库中，以供所述模型训练模块重新进行模型训练。5.如权利要求4所述的语音识别系统，其特征在于，至少包括：第一解码单元，用于将所述语音特征与所述声学和语言模型进行匹配度计算，如果匹配度大于等于阈值，则判断能够识别对应的所述语音特征并输出识别结果，否则，判断无法识别所述语音特征；以及所述模型训练模块进一步包括一手动标注单元，用于根据用户命令，手动将所述匹配度低于所述阈值的无法识别的语音特征与预设的标准语音进行映射匹配，并将所述语音特征与所述标准语音数据及其映射关系保存在一个第二语音数据库中。6.如权利要求5所述的语音识别系统，其特征在于，所述手动标注单元包括：提示子单元，用于周期性提示用户查看存储在第一语音数据库中的无法识别的语...

【专利技术属性】
技术研发人员：李强生，
申请(专利权)人：深圳市全圣时代科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人