语音识别结果纠正方法、装置、设备及存储介质制造方法及图纸

技术编号:16459186 阅读:23 留言:0更新日期:2017-10-25 23:45
本发明专利技术实施例公开了一种语音识别结果纠正方法、装置、设备及存储介质。所述语音识别结果纠正方法包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。本发明专利技术实施例通过采用神经机器翻译NMT模型对语音识别得到的初始文本信息,进行再次识别纠正,能够得到较为准确的文本识别结果,可以提高语音识别的准确率。

Speech recognition result correcting method, device, equipment and storage medium

The embodiment of the invention discloses a method, device, equipment and storage medium for correcting speech recognition results. Including the speech recognition results correct approach: speech recognition on speech data acquisition, initial text information; using Machine Translation NMT neural model for recognition to correct the initial text text information, get the final recognition results. The embodiment of the invention the initial text information using Machine Translation NMT neural model for speech recognition, to identify and correct, can obtain the text recognition result is more accurate, can improve the accuracy of speech recognition.

【技术实现步骤摘要】
语音识别结果纠正方法、装置、设备及存储介质
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别结果纠正方法、装置、设备及存储介质。
技术介绍
随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,语音识别技术是通过识别和解析过程把语音信号转变为相应的文本或命令的技术。语音识别技术的应用正在日益改变人类的生产和生活方式,被广泛应用于诸如语音输入系统、语音控制系统和智能对话查询系统等领域。语音交互作为最自然的交互方式日益推广,对语音识别准确率的要求要来越高。目前,语音识别技术主要是通过大量的训练数据训练更复杂的声学模型,通过声学模型对输入语音进行识别,以提高识别性能。但是,声学模型的识别准确率还有待进一步提升。
技术实现思路
本专利技术实施例提供一种语音识别结果纠正方法、装置、设备及存储介质,可以提高语音识别的准确率。第一方面,本专利技术实施例提供了一种语音识别结果纠正方法,该方法包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。第二方面,本专利技术实施例还提供了一种语音识别结果纠正装置,该装置包括:语音识别模块,用于对获取的语音数据进行语音识别,得到初始文本信息;文本纠正模块,用于采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。第三方面,本专利技术实施例还提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例任一所述的语音识别结果纠正方法。第四方面,本专利技术实施例还提供了一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现本专利技术实施例任一所述的语音识别结果纠正方法。本专利技术实施例通过采用神经机器翻译NMT模型对语音识别得到的初始文本信息,进行再次识别纠正,能够得到较为准确的文本识别结果,可以提高语音识别的准确率。附图说明图1是本专利技术实施例一提供的一种语音识别结果纠正方法的流程图;图2A是本专利技术实施例二提供的一种语音识别结果纠正方法的流程图;图2B是本专利技术实施例二提供的一种语音识别结果纠正方法中的编码解码过程示意图;图3A是本专利技术实施例三提供的一种语音识别结果纠正方法的流程图;图3B是本专利技术实施例三提供的一种语音识别结果纠正方法中的计算节点示意图;图3C是本专利技术实施例三提供的一种语音识别结果纠正方法中的加入attention机制后的隐状态计算示意图;图3D是本专利技术实施例三提供的一种语音识别结果纠正方法中的加入反馈后的attention机制的隐状态计算示意图;图4是本专利技术实施例四提供的一种语音识别结果纠正装置的结构图;图5是本专利技术实施例五提供的一种计算机设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面结合附图对本专利技术具体实施例作进一步的详细描述。可以理解的是,此处所描述的具体实施例仅仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程图描绘的处理或方法。虽然流程图将各项操作(或步骤)描述成顺序的处理,但是其中的许多操作可以被并行地、并发地或者同时实施。此外,各项操作的顺序可以被重新安排。当其操作完成时所述处理可以被终止,但是还可以具有未包括在附图中的附加步骤。所述处理可以对应于方法、函数、规程、子例程、子程序等等。实施例一图1为本专利技术实施例一提供的一种语音识别结果纠正方法的流程图,本实施例可适用于对语音识别结果进行纠正的情况,该方法可以由本专利技术实施例提供的语音识别结果纠正装置来执行,该装置可采用软件和/或硬件的方式实现,该装置可集成在终端设备中或终端设备的应用端中。其中,终端设备可以为但不限于为移动终端(平板电脑或智能手机)。其中,应用端可以为内嵌于终端设备中的某个客户端的插件,或者为所述终端设备的操作系统的插件,与内嵌于终端设备中的语音识别结果纠正客户端或者终端设备的操作系统中的语音识别结果纠正应用程序配合使用;应用端也可以为所述终端设备中一个独立的可提供语音识别结果纠正的客户端,本实施例对此不进行限制。如图1所述,本实施例的方法具体包括:S101、对获取的语音数据进行语音识别,得到初始文本信息。其中,语音数据为通过终端设备获取的语音信号,可以为原始语音信号,也可以为经过去噪、特征提取后的语音信号。具体的,可通过终端设备的麦克风、语音输入装置或录音装置获取语音数据。其中,终端设备包括但不限于为移动终端设备(例如,iPhone、平板电脑、手机等)、固定终端设备(例如,台式电脑和电视等)和穿戴设备(例如,智能手表、智能手环等)。在获取到语音数据后,采用语音识别算法对语音数据进行初步识别,得到初始文本信息。具体可采用的语音识别算法包括但不限于为深层神经网络(DeepNeuralNetwork,DNN)算法、时间递归神经网络(LongShort-TermMemory,LSTM)算法、卷积神经网络(ConvolutionalNeuralNetwork,CNN)算法,其中DNN算法具有良好的分类能力,LSTM算法有长时记忆能力,CNN算法能够学习到语音特征当中一些不变的特征。此外,也可以将上述三个算法联合使用,得到初始文本信息。S102、采用神经机器翻译(NeuralMachineTranslation,NMT)模型对初始文本信息进行识别纠正,得到最终的文本识别结果。其中,NMT模型是根据已知语音数据训练得到,即通过神经网络自动从大量的已知语音数据中学习得到,从而使得文本识别纠正的质量得到大幅跃升。具体的,可采用如下方法训练得到NMT模型:对已知语音数据进行语音识别,将识别得到的文本信息作为源数据;对已知语音数据对应的正确文本信息进行标注,将标注后的文本信息作为目标数据;根据源数据和目标数训练得到NMT模型。具体的,分别对已知语音数据语音识别得到的文本信息和正确文本信息进行字词切分处理,得到至少一个字词,并进行对齐处理,然后将对齐后的字词作为训练数据,输入NMT模型中进行学习训练,得到具备文本识别纠正能力的NMT模型。然后,将初始文本信息输入NMT模型中,NMT模型会根据预先学习到的文本识别纠正能力对初始文本信息中不正确的字词进行纠正处理。本实施例通过采用神经机器翻译NMT模型对语音识别得到的初始文本信息,进行再次识别纠正,能够得到较为准确的文本识别结果,可以提高语音识别的准确率。实施例二图2A是本专利技术实施例二提供的一种语音识别结果纠正方法的流程图。本实施例以上述实施例为基础进行优化,在本实施例中,进一步将步骤采用神经机器翻译NMT模型对初始文本信息进行识别纠正,得到最终的文本识别结果优化为:将初始文本信息中包含的文字进行切分,得到至少一个字词;通过NMT模型中的编码器将字词编码为稠密向量,通过NMT模型中的解码器对稠密向量进行解码,得到最终的文本识别结果。相应的,如图2A所示,本实施例的方法具体包括:S201、对获取的语音数据进行语音识别,得到初始文本信息。S202、将初始文本信息中包含的文字进行切分,得本文档来自技高网...
语音识别结果纠正方法、装置、设备及存储介质

【技术保护点】
一种语音识别结果纠正方法,其特征在于,包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。

【技术特征摘要】
1.一种语音识别结果纠正方法,其特征在于,包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果包括:将所述初始文本信息中包含的文字进行切分,得到至少一个字词;通过NMT模型中的编码器将所述字词编码为稠密向量,通过NMT模型中的解码器对所述稠密向量进行解码,得到最终的文本识别结果。3.根据权利要求2所述的方法,其特征在于,所述通过NMT模型中的编码器将所述字词编码为稠密向量,通过NMT模型中的解码器对所述稠密向量进行解码,得到最终的文本识别结果包括:通过NMT模型中的编码器将所述至少一个字词转换为源隐状态向量;将所述源隐状态向量输入NMT模型中的解码器,通过所述NMT模型中的解码器输出目标隐状态向量;根据所述目标隐状态向量和所述源隐状态向量确定注意力attention机制的隐状态向量;根据所述attention机制的隐状态向量,得到最终的文本识别结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标隐状态向量和所述源隐状态向量确定注意力attention机制的隐状态向量包括:通过所述NMT模型中的解码器输出源隐状态向量的中心位置,并根据所述中心位置获取至少一个预设位置上的字词的源隐状态向量;根据所述至少一个预设位置上的字词的源隐状态向量和目标隐状态向量计算得到对齐权重,并根据所述对齐权重得到上下文向量;根据所述上下文向量和目标隐状态向量计算得到attention的隐状态向量。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述attention的隐状态向量作为反馈,重新输入所述NMT模型中的解码器。6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:对已知语音数据进行语音识别,将识别得到的文本信息作为源数据;对所述已知语音数据对应的正确文本信息进行标注,将标注后的文本信息作为目标数据;根据所述源数据和所述目标数训练得到所述NMT模型。7.一种语音识别结果纠正装置,其特征在于,包括:语音识别模块,用于对获取的语音数据进行语音识别,得到初始文本信息;文本...

【专利技术属性】
技术研发人员:黄俊李先刚
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1