一种语音识别的校正方法及装置制造方法及图纸

技术编号:15692542 阅读:286 留言:0更新日期:2017-06-24 06:39
本发明专利技术实施例公开了一种语音识别的校正方法及装置,该方法包括:根据设定检测设备的检测数据确定用户所处的当前应用场景;在所述当前应用场景下对检测到的声音进行语音识别;基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;根据所述学习结果对语音识别的结果进行校正。本发明专利技术实施例能够满足特定应用场景语音识别的要求,具有针对性的对各个应用场景进行语音识别,大大提升了语音识别的准确性,进而促进了人机交互,可应用范围广泛。

Method and device for correcting speech recognition

The embodiment of the invention discloses a method and a device for correction of speech recognition, the method comprises: according to the current application scenarios of user's data set to determine the detection of detection equipment; to detect the current scenario of voice recognition; the current application scenarios corresponding to deep learning model speech recognition based on the data of deep learning, learning results; corrected according to the study results of speech recognition results. The embodiment of the invention can meet the specific application scenarios of speech recognition, targeted speech recognition on various scenarios, greatly enhance the accuracy of speech recognition, and then promote the man-machine interaction, can be widely used.

【技术实现步骤摘要】
一种语音识别的校正方法及装置
本专利技术涉及语音处理技术,尤其涉及一种语音识别的校正方法及装置。
技术介绍
随着科技的发展,人类已进入人工智能时代,人工智能用于延展人类的智慧和能力,模拟人类的思维过程和智能行为,使机器能够胜任通常需要人类智能才能完成的复杂工作。人工智能的其中一个重要分支包括语音识别、文字翻译以及语音合成,语音识别技术是机器通过识别和理解过程把输入的语音信号转变成相应的文本,实现人与机器的交流;文字翻译技术是将语音识别到的词语按照正确的语法翻译为语句;语音合成技术(TexttoSpeech,简称TTS)是将机器产生或外部输入的文字信息转变为类似人类表达方式的语音并输出。目前,科大讯飞、微软、谷歌等公司研制出的语音识别技术是基于具有庞大的云数据处理能力的大数据平台计算而来,数据量具有大而广的特点,可以基本实现人机语言交互,但是,针对特定应用场景下的特定应用语句的识别和翻译往往是不够准确的。现有技术的校正方法中,通常采用统计学或机器学习的方法,逐步过滤获取校正集合。但是这种方法由于缺乏针对性,对每个用户的输入进行校正的过程基本是相同的,因此校正的准确性不高。例如,接收到不同用户的语音“lihua”,通过初始识别获取的对应文本为“李华”,可能通通校正为“梨花”、“理化”或者“礼花”,即没有根据不同的应用场景更具有针对性的获取校正结果。
技术实现思路
本专利技术实施例提供一种语音识别的校正方法及装置,以解决现有技术中对语音识别结果校正不准确的问题。第一方面,本专利技术实施例提供了一种语音识别的校正方法,包括:根据设定检测设备的检测数据确定用户所处的当前应用场景;在所述当前应用场景下对检测到的声音进行语音识别;基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;根据所述学习结果对语音识别的结果进行校正。进一步地,所述根据设定检测设备的检测数据确定用户所处的当前应用场景,包括以下的至少一种:对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。进一步地,所述根据设定检测设备的检测数据确定用户所处的当前应用场景之前,还包括:使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。进一步地,所述根据所述学习结果对语音识别的结果进行校正,包括:如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。进一步地,所述语料库包括:已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。第二方面,本专利技术实施例还提供了一种语音识别的校正装置,包括:场景确定模块,用于根据设定检测设备的检测数据确定用户所处的当前应用场景;语音识别模块,用于在所述当前应用场景下对检测到的声音进行语音识别;深度学习模块,用于基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;校正模块,用于根据所述学习结果对语音识别的结果进行校正。进一步地,所述场景确定模块包括:第一确定单元,用于对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;第二确定单元,用于通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;第三确定单元,用于通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。进一步地,所述装置还包括:特征提取单元,用于使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;模型创建单元,用于对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。进一步地,所述校正模块包括:校正单元,用于如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。进一步地,所述语料库包括:已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。本专利技术实施例提供了一种语音识别的校正方法及装置,通过获取检测数据来确定当前应用场景,将语音识别得到的语料在当前应用场景对应的深度学习模型中进行深度学习,对与当前应用场景不匹配的语音识别的结果进行校正,替换为正确的文字翻译结果,能够满足特定应用场景语音识别的要求,具有针对性的对各个应用场景进行语音识别,大大提升了语音识别的准确性,进而促进了人机交互,使人与机器能够有效的沟通交流,提升了用户体验感,可应用范围广泛。附图说明图1是本专利技术实施例一中的一种语音识别的校正方法的流程图;图2是本专利技术实施例二中的一种语音识别的校正方法的流程图;图3a是本专利技术实施例三中的一种语音识别的校正方法的流程图;图3b是本专利技术实施例三中的一种语音识别的校正方法的示意图;图4是本专利技术实施例四中的一种语音识别的校正方法的流程图;图5是本专利技术实施例五中的一种语音识别的校正装置的结构示意图。具体实施方式下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部结构。实施例一图1为本专利技术实施例一提供的一种语音识别的校正方法的流程图,本实施例可适用于根据当前应用场景来进行校正语音识别的结果的情况,该方法可以由一种语音识别的校正装置来执行,该装置可以采用软件和/或硬件的方式实现,一般集成于具有语音识别功能的设备中。本专利技术实施例一的方法具体包括:S101、根据设定检测设备的检测数据确定用户所处的当前应用场景。中国的语言博大精深,对汉语进行语音识别是具有一定难度的,哪怕仅仅是一个语音音调的不同,甚至说即使是语音的音调完全相同,所要表达的意义就是截然不同的,所以,需要检测用户所处于的当前应用场景,根据不同的应用场景来对用户使用的特定应用场景下的语料进行识别和判断,使语音识别的最终结果更加准确。使用设定检测设备能够检测出当前的应用环境,从而确定用户所处于的当前应用场景。S102、在所述当前应用场景下对检测到的声音进行语音识别。具体的,在确定了用户所处于的当前应用场景之后,对检测到的声音进行语音识别,获取语音识别的结果,即获取通过语音识别得到的语料。S103、基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果。具体的,首先创建对应各个应用场景的深度学习模型,建立模拟人脑进行分析学习的神经网络,对语音识别得到的语料进行深度的学习和分析,包括语义、语音、语调、语境以及语法等,判断语音识别的初步结果和当前的应用场景是否是匹配的,判断语音识别得到的语料是否是准确的。S104、根据所述学习结果对语音识别的结果进行校正。具体的,经过深度学习后,如果语音识别得到的语料是不准确的,则对语音识别的结果进行校正,将语音识别结果翻译为正确的文字,替换之前的语音识别结果。本实施例中,首先确定用户所处于的当前应用场景,结合当前应用场景,对语音识别得到的语料进行深度学习,如果语音识别得到的语料是不准确的,则根本文档来自技高网...
一种语音识别的校正方法及装置

【技术保护点】
一种语音识别的校正方法,其特征在于,包括:根据设定检测设备的检测数据确定用户所处的当前应用场景;在所述当前应用场景下对检测到的声音进行语音识别;基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;根据所述学习结果对语音识别的结果进行校正。

【技术特征摘要】
1.一种语音识别的校正方法,其特征在于,包括:根据设定检测设备的检测数据确定用户所处的当前应用场景;在所述当前应用场景下对检测到的声音进行语音识别;基于所述当前应用场景对应的深度学习模型对语音识别得到的语料进行深度学习,获取学习结果;根据所述学习结果对语音识别的结果进行校正。2.根据权利要求1所述的方法,其特征在于,所述根据设定检测设备的检测数据确定用户所处的当前应用场景,包括以下的至少一种:对检测到的声音进行语音识别,判断语音识别得到语料所属的语料集对应的应用场景;通过定位模块检测移动终端所在的位置,获取用户所处的当前应用场景;通过蓝牙数字信号处理设备检测应用场景的特征,根据所述特征确定当前应用场景。3.根据权利要求1所述的方法,其特征在于,所述根据设定检测设备的检测数据确定用户所处的当前应用场景之前,还包括:使用聚类算法对各个应用场景下的语料库进行分组,根据所述分组的结果提取语料特征;对所述语料特征进行训练,创建对应各个应用场景的深度学习模型。4.根据权利要求1所述的方法,其特征在于,所述根据所述学习结果对语音识别的结果进行校正,包括:如果所述学习结果为所述语音识别的结果与当前应用场景不匹配,将所述语音识别的结果校正为当前应用场景下对应的结果。5.根据权利要求3所述的方法,其特征在于,所述语料库包括:已存储的用户输入的语料、经过筛选的语料和/或校正语音识别的结果得到的语料。6.一种语音识...

【专利技术属性】
技术研发人员:石日俭贺磊刘旭吕晓霞
申请(专利权)人:深圳市大乘科技股份有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1