基于多源识别的语音识别方法、系统、音箱及存储介质技术方案

技术编号:19967323 阅读:24 留言:0更新日期:2019-01-03 14:27
本发明专利技术公开了一种基于多源识别的语音识别方法、系统、音箱及存储介质,所述方法包括:通过智能音箱获取用户语音;智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别,得到至少两个识别结果;智能音箱获取所述至少两个识别结果,对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果;智能音箱对相同的所述至少两个识别结果进行输出;智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。本发明专利技术通过在智能音箱内设置至少两个语音识别平台对用户语音时行识别,在识别结果相同时进行输出,在识别结果不同时,进行同一化后得到最终识别结果再进行输出,极大的提高了智能音箱语音识别精度。

Speech recognition method, system, speaker and storage medium based on multi-source recognition

The invention discloses a speech recognition method, system, speaker and storage medium based on multi-source recognition, which includes: acquiring user voice through intelligent speaker; recognizing user voice acquired by intelligent speaker through at least two speech recognition platforms to obtain at least two recognition results; and acquiring at least two recognition results by intelligent speaker. Comparing at least two recognition results identified by at least two speech recognition platforms; intelligent speakers output at least two identical recognition results; intelligent speakers output at least two identical recognition results after identifying at least two different recognition results. The invention sets at least two speech recognition platforms in the intelligent speaker to recognize the user's voice time-line, outputs the identical recognition results at the same time, and gets the final recognition results after identifying the identical recognition results at different times, and then outputs them, thus greatly improving the speech recognition accuracy of the intelligent speaker.

【技术实现步骤摘要】
基于多源识别的语音识别方法、系统、音箱及存储介质
本专利技术涉及语音识别领域,尤其涉及一种基于多源识别的语音识别方法、系统、音箱及存储介质。
技术介绍
语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术,其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中,根据语音识别引擎所基于的数学模型,从训练数据中统计地得到声学模型(acousticmodel,AM)和词汇表(lexicon)。在识别阶段中,语音识别引擎使用声学模型和词汇表对输入的语音进行处理,得到语音识别结果。例如,从输入声音的声波图进行特征提取以获得特征向量,然后根据声学模型得到音素(如[i],[o]等)序列,最后从词汇表中定位与音素序列匹配度较高的单词,甚至是句子。在语音识别系统中,可能加载了多于1个语音识别引擎来同时识别同一语音。例如,第一语音识别引擎可以是说话人相关语音识别(speaker-dependentautomaticspeechrecognition,SD-ASR)引擎,其被训练以识别来自特定说话人的语音并输出包括对应的分数的识别结果。第二语音识别引擎可以是说话无关语音识别(speaker-independentautomaticspeechrecognition,SI-ASR)引擎,其能够识别来自任何用户的语音并输出包括对应的分数的识别结果。在语音识别的应用中,除了人机交互之外,还有社交软件的应用,将用户语音转换为文字进行输出,不管是人机交互还是社交应用,如何提高语音识别的精度都是一个问题。
技术实现思路
本专利技术的目的是针对上述现有技术存在的缺陷,提供一种基于多源识别的语音识别方法、系统、音箱及存储介质。本专利技术采用的技术方案是,提供一种基于多源识别的语音识别方法,所述方法包括:通过智能音箱获取用户语音;智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别,得到至少两个识别结果;智能音箱获取所述至少两个识别结果,对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果;智能音箱对相同的所述至少两个识别结果进行输出;智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。优选的,所述智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别,得到至少两个识别结果之前,所述方法还包括:智能音箱设置有至少两个识别策略不同的语音识别平台做为所述至少两个语音识别平台;通过智能音箱采集并储存用户的声纹;将获取的用户语音进行去噪。使用所述至少两个语音识别平台对所述用户语音进行识别,可以提高语音识别的精度,而选择至少两个识别策略不同的语音识别平台做为识别所述用户语音的所述至少两个语音识别平台,在不同的识别策略下,得到的识别结果精度更有保证。采集并储存用户的声纹,将用户的声纹做为识别样本进行语音识别,可以得到更高的识别精度。对所述用户语音进行去噪,使音源更容易被识别出来,同时也提高了识别精度。优选的,所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出,包括:在智能音箱中区别出差异部分,对所述差异部分采用上下文语义分析;调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义,确定其中一个作为识别结果进行输出。通过所述至少两个语音识别平台识别所述用户语音所得到的所述至少两个识别结果不一定是相同的,当所述至少两个识别结果都不为相同时,无法确定输出哪个识别结果。调用云计算中的卷积神经训练模型进行计算所述至少两个识别结果的语义,从而得到符合语义库中语义习惯的识别结果进行输出,因为识别结果经过模型计算符合语义习惯,所以识别的结果精度会得到提高。优选的,所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出,包括:选择所述至少两个语音识别平台对应的至少一个第二语音识别引擎对所述用户语音再次进行识别,得到多个第二识别结果;将所述多个识别结果与所述多个第二识别结果进行对比;选择同一率最高的识别结果进行输出。对于存在差异的识别结果,通过第二语音引擎再次识别,增加了识别的次数,提高了识别的精度。优选的,所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出,包括:区别出差异部分,对所述差异部分进行模糊搜索;选择模糊搜索匹配度最高的识别结果进行输出。通过对差异部分进行模糊搜索,差异部分被搜索匹配度最高的内容所替换,搜索的内容在语义上符合习惯,同样可以提高语音识别的精度。还提供一种基于多源识别的语音识别系统,所述系统包括:输入模块,设置在智能音箱中用于获取用户语音;至少两个语音识别模块,设置在智能音箱中用于对所述用户语音进行识别,得到至少两个识别结果;对比模块,设置在智能音箱中用于对比所述至少两个语音识别模块识别得到的所述至少两个识别结果;同一模块,设置在智能音箱中用于对存在差异的所述至少两个识别结果进行同一;输出模块,设置在智能音箱中用于对同一的所述至少两个识别结果进行输出。优选的,所述至少两个语音识别模块为至少两个识别策略不同的语音识别模块,所述语音识别模块包括:储存子模块,用于储存采集到的用户的声纹;去噪子模块,用于对获取的用户语音进行去噪。优选的,所述同一模块包括:云计算子模块,用于分析差异部分上下文语义,调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义;搜索子模块,用于对差异部分进行模糊搜索;设置在所述语音识别模块上的至少一个第二语音识别子模块,用于对所述用户语音再次识别,得到多个第二识别结果。还提供一种智能音箱,所述智能音箱包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述的基于多源识别的语音识别方法。还提供一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现如前述的基于多源识别的语音识别方法。与现有技术相比,本专利技术至少具有以下有益效果:本专利技术通过在智能音箱内设置至少两个语音识别平台对用户语音时行识别,在识别结果相同时进行输出,在识别结果不同时,进行同一化后得到最终识别结果再进行输出,极大的提高了智能音箱语音识别精度。附图说明图1为本专利技术实施例的基于多源识别的语音识别方法流程图;图2为本专利技术实施例的同一化处理的一种流程图;图3为本专利技术实施例的同一化处理的另一种流程图;图4为本专利技术实施例的同一化处理的又一种流程图;图5为本专利技术实施例的基于多源识别的语音识别系统模块图。具体实施方式下面结合附图和实施例对本专利技术做进一步说明。如图1所示,本专利技术提出了一种基于多源识别的语音识别方法,所述基于多源识别的语音识别方法实施在一种语音识别的环境,所述环境包括:终端。其中,所述终端可以是智能音箱、智能手机、平板电脑、笔记本电脑及台式电脑等,本专利技术不对所述终端的产品类型做具体的限定。所述终端安装有社交或人机交互类应用,且所述社交或人机交互类应用可调用终端内置麦克风及显示装置。在本专利技术实施例中,所述环境优选为智能音箱,所述本文档来自技高网
...

【技术保护点】
1.一种基于多源识别的语音识别方法,用于智能音箱,其特征在于,所述方法包括:通过智能音箱获取用户语音;智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别,得到至少两个识别结果;智能音箱获取所述至少两个识别结果,对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果;智能音箱对相同的所述至少两个识别结果进行输出;智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。

【技术特征摘要】
1.一种基于多源识别的语音识别方法,用于智能音箱,其特征在于,所述方法包括:通过智能音箱获取用户语音;智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别,得到至少两个识别结果;智能音箱获取所述至少两个识别结果,对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果;智能音箱对相同的所述至少两个识别结果进行输出;智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。2.如权利要求1所述的基于多源识别的语音识别方法,其特征在于,所述智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别,得到至少两个识别结果之前,所述方法还包括:智能音箱设置有至少两个识别策略不同的语音识别平台做为所述至少两个语音识别平台;通过智能音箱采集并储存用户的声纹;将获取的用户语音进行去噪。3.如权利要求1所述的基于多源识别的语音识别方法,其特征在于,所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出,包括:在智能音箱中区别出差异部分,对所述差异部分采用上下文语义分析;调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义,确定其中一个作为识别结果进行输出。4.如权利要求1所述的基于多源识别的语音识别方法,其特征在于,所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出,包括:选择所述至少两个语音识别平台对应的至少一个第二语音识别引擎对所述用户语音再次进行识别,得到多个第二识别结果;将所述多个识别结果与所述多个第二识别结果进行对比;选择同一率最高的识别结果进行输出。5.如权利要求1所述的基于多源识别的语音识别方法,其特征在于,所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出,包括:区别出差异部分,对所述差异部分进行模糊搜索;选择模糊搜索匹配度最高的...

【专利技术属性】
技术研发人员:蔡洁荣
申请(专利权)人:福来宝电子深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1