The embodiment of the invention discloses a method, device, equipment and storage medium for correcting speech recognition results. Including the speech recognition results correct approach: speech recognition on speech data acquisition, initial text information; using Machine Translation NMT neural model for recognition to correct the initial text text information, get the final recognition results. The embodiment of the invention the initial text information using Machine Translation NMT neural model for speech recognition, to identify and correct, can obtain the text recognition result is more accurate, can improve the accuracy of speech recognition.
【技术实现步骤摘要】
语音识别结果纠正方法、装置、设备及存储介质
本专利技术实施例涉及语音识别
,尤其涉及一种语音识别结果纠正方法、装置、设备及存储介质。
技术介绍
随着计算机处理能力的迅速提高,语音识别技术得到了飞速发展,语音识别技术是通过识别和解析过程把语音信号转变为相应的文本或命令的技术。语音识别技术的应用正在日益改变人类的生产和生活方式,被广泛应用于诸如语音输入系统、语音控制系统和智能对话查询系统等领域。语音交互作为最自然的交互方式日益推广,对语音识别准确率的要求要来越高。目前,语音识别技术主要是通过大量的训练数据训练更复杂的声学模型,通过声学模型对输入语音进行识别,以提高识别性能。但是,声学模型的识别准确率还有待进一步提升。
技术实现思路
本专利技术实施例提供一种语音识别结果纠正方法、装置、设备及存储介质,可以提高语音识别的准确率。第一方面,本专利技术实施例提供了一种语音识别结果纠正方法,该方法包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。第二方面,本专利技术实施例还提供了一种语音识别结果纠正装置,该装置包括:语音识别模块,用于对获取的语音数据进行语音识别,得到初始文本信息;文本纠正模块,用于采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。第三方面,本专利技术实施例还提供了一种设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例任一所述的语音 ...
【技术保护点】
一种语音识别结果纠正方法,其特征在于,包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。
【技术特征摘要】
1.一种语音识别结果纠正方法,其特征在于,包括:对获取的语音数据进行语音识别,得到初始文本信息;采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果。2.根据权利要求1所述的方法,其特征在于,所述采用神经机器翻译NMT模型对所述初始文本信息进行识别纠正,得到最终的文本识别结果包括:将所述初始文本信息中包含的文字进行切分,得到至少一个字词;通过NMT模型中的编码器将所述字词编码为稠密向量,通过NMT模型中的解码器对所述稠密向量进行解码,得到最终的文本识别结果。3.根据权利要求2所述的方法,其特征在于,所述通过NMT模型中的编码器将所述字词编码为稠密向量,通过NMT模型中的解码器对所述稠密向量进行解码,得到最终的文本识别结果包括:通过NMT模型中的编码器将所述至少一个字词转换为源隐状态向量;将所述源隐状态向量输入NMT模型中的解码器,通过所述NMT模型中的解码器输出目标隐状态向量;根据所述目标隐状态向量和所述源隐状态向量确定注意力attention机制的隐状态向量;根据所述attention机制的隐状态向量,得到最终的文本识别结果。4.根据权利要求3所述的方法,其特征在于,所述根据所述目标隐状态向量和所述源隐状态向量确定注意力attention机制的隐状态向量包括:通过所述NMT模型中的解码器输出源隐状态向量的中心位置,并根据所述中心位置获取至少一个预设位置上的字词的源隐状态向量;根据所述至少一个预设位置上的字词的源隐状态向量和目标隐状态向量计算得到对齐权重,并根据所述对齐权重得到上下文向量;根据所述上下文向量和目标隐状态向量计算得到attention的隐状态向量。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:将所述attention的隐状态向量作为反馈,重新输入所述NMT模型中的解码器。6.根据权利要求1-5任一项所述的方法,其特征在于,所述方法还包括:对已知语音数据进行语音识别,将识别得到的文本信息作为源数据;对所述已知语音数据对应的正确文本信息进行标注,将标注后的文本信息作为目标数据;根据所述源数据和所述目标数训练得到所述NMT模型。7.一种语音识别结果纠正装置,其特征在于,包括:语音识别模块,用于对获取的语音数据进行语音识别,得到初始文本信息;文本...
【专利技术属性】
技术研发人员:黄俊,李先刚,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。