语音识别系统及方法、客户端设备及云端服务器技术方案

技术编号:14872434 阅读:133 留言:0更新日期:2017-03-23 20:13
本发明专利技术公开一种语音识别系统,至少包括:语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;特征提取模块,用于从所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。本发明专利技术还提供一种语音识别方法、客户端设备以及云端服务器。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及语音识别领域,尤其涉及一种语音识别系统及方法和具有语音识别功能的客户端设备及云端服务器。
技术介绍
“大词汇连续语音识别”(LargeVocabularyContinuousSpeechRecognition,LVCSR,简称“语音识别”),就是由计算机根据人的连续声音信号中所蕴涵的语言信息,识别出某段语音对应的是哪些文字的过程。大词汇连续汉语语音识别器已经取得了很大的进展,对标准普通话,识别器的准确率可以达到95%以上。但是,汉语的方言问题是汉语语音识别面临的主要问题。由于在中国大部分人的普通话都带有一定的方言背景,在这样的情况下,大部分的语音识别器的性能都会大大下降,甚至无法使用。当前包括苹果公司的Siri、中国的科大讯飞等设备和软件可以提供语音输入功能,但是语音识别受用户个人发音的影响,导致语音识别时准确率受到很大影响,进而影响了语音识别功能的适用。另外,大量的非智能客户端设备,在使用时其自带的语音操控功能,也由于语音输入时识别率的问题,而影响到其语音功能的适用,例如汽车中的语音操作功能、蓝牙耳机、门铃等设备的语音操控等。目前很多识别器对方言背景对语音识别器性能造成的影响是用数据库方法去消除或减弱的,就是说,当已经有一个对标准普通话进行识别的语音识别器,需要对带某种方言背景的普通话进行识别时,采用的方法为:收集大量与该方言有关的第一语音数据库,然后利用已有的声学模型训练方法去重新训练声学模型,或利用已有的说话人自适应方法对声学模型进行自适应。这种方法的缺点是:(1)收集带方言背景的数据库的工作量非常巨大,对于汉语这么多的方言,数据库的收集更是一件巨大的工程。(2)这种方法无法兼顾标准普通话和带发音背景普通话之间的共性,仅是通过数据驱动的方法去解决问题,相当于完全重新构建一个语音识别器,给不同方言背景的语音识别器之间的资源共享和兼容带来困难。
技术实现思路
为了解决上述技术问题,本专利技术提供一种语音识别系统及方法和具有语音识别功能的客户端设备及云端服务器。本专利技术一实施例提供一种语音识别系统,至少包括:语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;特征提取模块,用于从所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。本专利技术另一实施例还提供一种语音识别方法,包括:基于启用实时通话或语音录入功能实时输入用户的语音;从所输入的用户语音中提取语音特征;根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及实时保存并更新所述声学和语言模型到一个模型数据库中。本专利技术又一实施例提供一种客户端设备,其包括上述的语音识别系统。专利技术再一实施例提供一种云端服务器,其包括对应不同用户的多个私有云主模块。每个云主模块包括:特征提取模块,用于从来自于正在启用实时通话或语音录入功能的客户端设备所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。本专利技术的语音识别系统和方法通过实时记录或保存实时通话和录音信息,并作为语音模型训练的样本,从而能够根据用户不同的发音特点持续更新模型数据库。由此,可以满足用户的个性化需求,而且能够支持多种语音,例如英语或者地方方言等,提高了识别度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术第一实施例提供的语音识别系统的系统框架图;图2是图1的语音识别系统的功能模块图;图3是本专利技术第二实施例提供的语音识别系统的功能模块图;图4是本专利技术一实施例提供的语音识别方法的流程图;图5是本专利技术另一实施例提供的语音识别方法的流程图;图6是图5中的步骤S409的具体流程图;图7是本专利技术又一实施例提供的语音识别方法的流程图。具体实施方式下面结合附图和具体实施方式对本专利技术的技术方案作进一步更详细的描述。显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都应属于本专利技术保护的范围。第一实施例请参阅图1,其为本专利技术第一实施例提供的一种语音识别系统100的系统架构图。在本实施例中,所述语音识别系统100由客户端设备200与云端服务器300共同实现,以能够通过云端服务器300完成识别前端、模型训练和识别后端的全过程,并将最终的语音识别结果下发至客户端设备200。如此,可减轻客户端设备200的数据处理量,部署起来非常方便,且后续升级的大部分工作也都在云端服务器300完成。具体的,请参阅图2,所述语音识别系统100至少包括语音输入模块10、特征提取模块20、模型训练模块30以及更新模块40。本实施例中,所述语音输入模块10设置在客户端设备200上,例如是麦克风及其处理电路。所述特征提取模块20、模型训练模块30、更新模块40等集成在所述云端服务器300中。所述语音输入模块10用于当客户端设备200启用实时通话或语音录入功能时,实时输入用户的语音。所述客户端设备200可以是手机、车载设备、电脑、手机、智能家居设备以及可穿戴设备等等。所述用户的语音也可进行本地保存或云端保存。所述特征提取模块20用于从所输入的用户语音中提取语音特征。本实施例中,所述特征提取模块20将提取到的语音特征实时保存在一个第一语音数据库21中,所述第一语音数据库21可以是本地数据库,也可以是云端数据库。所述语音特征指所述用户语音的特征数据。所述模型训练模块30用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型,以供在后续识别过程中,将提取的语音特征与所述声学和语言模型进行匹配与比较,得到最佳的识别结果。本实施例中,所述预设的规则是动态时间规整((Dynamictimewarping,简称DTW)、隐形马尔可夫(HiddenMarkovModel,HMM)理论、矢量量化(VectorQuantization,简称VQ)技术中的至少其中之一者。此外,本实施例中,所述模型训练模块30定时从所述第一语音数据库21中提取所述语音特征,以进行模型训练。当然,在其他实施例中,所述模型训练模块30也可实时提取第一语音数据库21中的特定语音特征,以进行实时的模型训练,或者定量(例如100条)提取所述特定语音特征,本专利技术不以此些实施例为限所述更新模块40用于实时保存并更新所述声学和语言模型到一个模型数据库41中,由此,能够获取更庞大的声学和语言模型数据库41,提高了识别度。此外,为了能够对用户的语音信息进行保密,且针对不同的用户语音特点提供个性化的模型训练,所述云端服务器300包括对应于不同用户的多个私有云主模块,每个私有云主模块包括所述特征提取模块20、模型训练模块30以及更新模块40等等。其中,所述特征提取模块20提取的特定语音特征保存到对应的私本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/21/201580031165.html" title="语音识别系统及方法、客户端设备及云端服务器原文来自X技术">语音识别系统及方法、客户端设备及云端服务器</a>

【技术保护点】
一种语音识别系统,其特征在于,所述系统至少包括:语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;特征提取模块,用于从所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。

【技术特征摘要】
【国外来华专利技术】1.一种语音识别系统,其特征在于,所述系统至少包括:语音输入模块,用于当启用实时通话或语音录入功能时,实时输入用户的语音;特征提取模块,用于从所输入的用户语音中提取语音特征;模型训练模块,用于根据所述语音特征以及预设的规则,建立对应的声学和语言模型;以及更新模块,用于保存并更新所述声学和语言模型到一个模型数据库中。2.如权利要求1所述的语音识别系统,其特征在于,所述特征提取模块将提取到的语音特征实时保存在一个第一语音数据库中,所述模型训练模块定时或定量从所述第一语音数据库中提取所述语音特征以进行模型训练。3.如权利要求2所述的语音识别系统,其特征在于,所述特征提取模块、模型训练模块以及更新模块集成在一个云端服务器中,所述云端服务器包括对应不同用户的多个私有云模块,所述特征提取模块提取的特定语音特征保存到对应的私有云模块下,并通过所述模型训练模块和更新模块建立模型和更新,所述识别模块则分别识别不同云模块下的语音数据。4.如权利要求1所述的语音识别系统,进一步包括:识别模块,用于根据模型数据库中的所述声学和语言模型,判断是否能够识别所述语音特征,如果能够识别,则生成携带控制命令的识别结果,否则,将无法识别的其他语音特征存储到一个第一语音数据库中,以供所述模型训练模块重新进行模型训练。5.如权利要求4所述的语音识别系统,其特征在于,至少包括:第一解码单元,用于将所述语音特征与所述声学和语言模型进行匹配度计算,如果匹配度大于等于阈值,则判断能够识别对应的所述语音特征并输出识别结果,否则,判断无法识别所述语音特征;以及所述模型训练模块进一步包括一手动标注单元,用于根据用户命令,手动将所述匹配度低于所述阈值的无法识别的语音特征与预设的标准语音进行映射匹配,并将所述语音特征与所述标准语音数据及其映射关系保存在一个第二语音数据库中。6.如权利要求5所述的语音识别系统,其特征在于,所述手动标注单元包括:提示子单元,用于周期性提示用户查看存储在第一语音数据库中的无法识别的语...

【专利技术属性】
技术研发人员:李强生
申请(专利权)人:深圳市全圣时代科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1