基于多源识别的语音识别方法、系统、音箱及存储介质技术方案

技术编号：19967323 阅读：24 留言：0更新日期：2019-01-03 14:27

本发明专利技术公开了一种基于多源识别的语音识别方法、系统、音箱及存储介质，所述方法包括：通过智能音箱获取用户语音；智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；智能音箱对相同的所述至少两个识别结果进行输出；智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。本发明专利技术通过在智能音箱内设置至少两个语音识别平台对用户语音时行识别，在识别结果相同时进行输出，在识别结果不同时，进行同一化后得到最终识别结果再进行输出，极大的提高了智能音箱语音识别精度。

Speech recognition method, system, speaker and storage medium based on multi-source recognition

The invention discloses a speech recognition method, system, speaker and storage medium based on multi-source recognition, which includes: acquiring user voice through intelligent speaker; recognizing user voice acquired by intelligent speaker through at least two speech recognition platforms to obtain at least two recognition results; and acquiring at least two recognition results by intelligent speaker. Comparing at least two recognition results identified by at least two speech recognition platforms; intelligent speakers output at least two identical recognition results; intelligent speakers output at least two identical recognition results after identifying at least two different recognition results. The invention sets at least two speech recognition platforms in the intelligent speaker to recognize the user's voice time-line, outputs the identical recognition results at the same time, and gets the final recognition results after identifying the identical recognition results at different times, and then outputs them, thus greatly improving the speech recognition accuracy of the intelligent speaker.

全部详细技术资料下载

【技术实现步骤摘要】
基于多源识别的语音识别方法、系统、音箱及存储介质
本专利技术涉及语音识别领域，尤其涉及一种基于多源识别的语音识别方法、系统、音箱及存储介质。
技术介绍
语音识别是通过用机器识别用户声音命令来实现人机交互的关键技术，其可以显著改进人机交互的方式以使得用户可以在说出命令的同时完成更多任务。语音识别是通过在线或离线训练得到的语音识别引擎来实现的。语音识别过程通常可以分为训练阶段和识别阶段。在训练阶段中，根据语音识别引擎所基于的数学模型，从训练数据中统计地得到声学模型(acousticmodel，AM)和词汇表(lexicon)。在识别阶段中，语音识别引擎使用声学模型和词汇表对输入的语音进行处理，得到语音识别结果。例如，从输入声音的声波图进行特征提取以获得特征向量，然后根据声学模型得到音素(如[i]，[o]等)序列，最后从词汇表中定位与音素序列匹配度较高的单词，甚至是句子。在语音识别系统中，可能加载了多于1个语音识别引擎来同时识别同一语音。例如，第一语音识别引擎可以是说话人相关语音识别(speaker-dependentautomaticspeechrecognition,SD-ASR)引擎，其被训练以识别来自特定说话人的语音并输出包括对应的分数的识别结果。第二语音识别引擎可以是说话无关语音识别(speaker-independentautomaticspeechrecognition,SI-ASR)引擎，其能够识别来自任何用户的语音并输出包括对应的分数的识别结果。在语音识别的应用中，除了人机交互之外，还有社交软件的应用，将用户语音转换为文字进行输出，不管是人机交...

【技术保护点】
1.一种基于多源识别的语音识别方法，用于智能音箱，其特征在于，所述方法包括：通过智能音箱获取用户语音；智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；智能音箱对相同的所述至少两个识别结果进行输出；智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。

【技术特征摘要】
1.一种基于多源识别的语音识别方法，用于智能音箱，其特征在于，所述方法包括：通过智能音箱获取用户语音；智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果；智能音箱获取所述至少两个识别结果，对比所述至少两个语音识别平台所识别得到的所述至少两个识别结果；智能音箱对相同的所述至少两个识别结果进行输出；智能音箱对存在差异的所述至少两个识别结果进行同一后再输出。2.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱将获取的用户语音通过至少两个语音识别平台对所述用户语音进行识别，得到至少两个识别结果之前，所述方法还包括：智能音箱设置有至少两个识别策略不同的语音识别平台做为所述至少两个语音识别平台；通过智能音箱采集并储存用户的声纹；将获取的用户语音进行去噪。3.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：在智能音箱中区别出差异部分，对所述差异部分采用上下文语义分析；调用云计算的卷积神经训练模型进行计算所述至少两个识别结果的语义，确定其中一个作为识别结果进行输出。4.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：选择所述至少两个语音识别平台对应的至少一个第二语音识别引擎对所述用户语音再次进行识别，得到多个第二识别结果；将所述多个识别结果与所述多个第二识别结果进行对比；选择同一率最高的识别结果进行输出。5.如权利要求1所述的基于多源识别的语音识别方法，其特征在于，所述智能音箱对存在差异的所述至少两个识别结果进行同一再输出，包括：区别出差异部分，对所述差异部分进行模糊搜索；选择模糊搜索匹配度最高的...

【专利技术属性】
技术研发人员：蔡洁荣，
申请(专利权)人：福来宝电子深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人