训练滤波模型的方法和语音识别的方法技术

技术编号:21118002 阅读:49 留言:0更新日期:2019-05-16 09:41
本申请提供了一种训练滤波模型的方法和装置,该方法包括:确定N个原始音节,该N个原始音节是第一语料的实际读音所包括的音节;确定N个识别音节,该N个识别音节是该第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,该第一语音识别处理包括基于该滤波模型的滤波处理和基于语音识别引擎的识别处理;根据该N个原始音节和该N个识别音节,确定N个音节距离,该N个音节距离与N个音节对一一对应,该N个原始音节和该N个识别音节构成N个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度,从而,有利于提高语音识别引擎的识别准确率。

Method of Training Filter Model and Method of Speech Recognition

This application provides a method and apparatus for training a filtering model. The method includes: determining N original syllables, which are the actual syllables of the first corpus; determining N recognized syllables, which are the syllables of the recognition result of the first corpus's sound signal processed by the first speech recognition, and the first speech recognition processing package. It includes filtering processing based on the filtering model and recognition processing based on speech recognition engine; N syllable distances are determined according to the N original syllables and the N recognized syllables. The N syllable distances correspond to N syllables one by one. The N original syllables and the N recognized syllables form N syllable pairs, each syllable pair includes one original syllable and one recognized syllable corresponding to each other. Each syllable distance is used to indicate the similarity between the corresponding syllable to the original syllable and the recognized syllable, so as to improve the recognition accuracy of the speech recognition engine.

【技术实现步骤摘要】
训练滤波模型的方法和语音识别的方法
本申请涉及语音识别
,并且更具体地,涉及一种训练滤波模型的方法、语音识别的方法、训练设备、语音识别设备和语音识别系统。
技术介绍
自动语音识别(AutomaticSpeechRecognition,ASR)是语音交互系统的关键技术,ASR引擎(也可以称为语音识别引擎)负责将语音信号转换成文本。图1是ASR引擎进行语音识别的一例的示意性图。如图1所述,经过拾音设备对声音进行采集,获得语音信号经过特征模块提取(频域)特征后,由声学模型转换为音节序列(例如,汉语拼音中的声母和韵母序列)。再通过解码器(decoder)在语言模型中搜索出该音节序列所对应的字符序列(例如,汉字序列)。但是,现有技术中,语言模型中音节序列与字符序列之间的对应关系是基于预设的数据库训练得到的,在实际使用中,受到环境和用户的发音习惯等的影响,可能导致对于同一语音在数据库中的声音信号与实际采集到的声音信号不一致,导致最终的无法识别出该语音。
技术实现思路
本申请提供一种用于训练滤波模型的方法与设备,有利于提高语音识别引擎进行语音识别的准确率。第一方面,提供了一种训练滤波模型的方法,所述方法包括:确定N个原始音节,所述N个原始音节是第一语料的实际读音所包括的音节,N为大于或等于1的整数;确定N个识别音节,所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理,所述N个识别音节和所述N个原始音节一一对应;根据所述N个原始音节和所述N个识别音节,确定N个音节距离,其中,所述N个音节距离与N个音节对一一对应,所述N个原始音节和所述N个识别音节构成N个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度;根据所述N个音节距离,对所述滤波模型进行训练。可选地,原始音节和识别音节之前的“相似度”可以根据原始音节和识别音节之前的误字率或误音节率确定。例如,原始音节和识别音节之前的误字率或误音节率越高,原始音节和识别音节之前的相似度越低。其中,原始音节和识别音节之前的误字率可以是指原始音节对应的多个文字(或字母)与识别音节对应的多个文字(或字母)中,发生识别错误文字(或字母)在该多个文字中的比例。即,误字率的值为错误识别的字的个数与总字数的比值。原始音节和识别音节之前的误字率可以是指原始音节对应的多个音节与识别音节对应的多个音节中,发生识别错误音节在该多个音节中的比例。即,误音节率的值为错误识别的音节的个数与总音节数的比值。可选地,该根据该N个音节距离,对该滤波模型进行训练,包括:根据该N个音节距离,对该滤波模型进行训练,以使第二语料对应的M个音节距离中的每个音节距离的大小在第一预设范围内,其中,该M个音节距离与M个音节对一一对应,该M个音节对所包括的M个原始音节是第二语料的实际读音所包括的音节,该M个音节对所包括的M个识别音节是该第二语料的声音信号经过第二语音识别处理而获得的识别结果的音节,M为大于或等于1的整数,该第二语音识别处理包括基于经过训练后的滤波模型的滤波处理和基于该语音识别引擎的识别处理。在本申请实施例中,该根据本申请的训练滤波模型的方法,通过预先获取训练语料的真实的原始音节,并获取该训练语料的经过语音识别引擎的识别处理而获得的识别音节,并进一步确定原始音节与识别音节之间的音节距离,从而,能够基于音节距离对与该语音识别引擎配合使用的滤波器进行训练,从而,能够支持使输入语音识别引擎的声音信号(或者说,经过滤波模型处理的声音信号)与该语音识别引擎能够准确识别的语音信号相匹配,从而,能够提高识别准确率。可选地,所述根据所述N个音节距离,对所述滤波模型进行训练,包括:根据所述第一语料的声音信号和N个音节距离确定打分模型;根据所述打分模型和第三语料的声音信号,确定K个音节距离,其中,第三语料的实际读音所包括K个原始音节,所述第三语料的声音信号经过所述第一语音识别处理而获得的识别结果包括K个识别音节,所述K个识别音节与所述K个原始音节一一对应,所述K个音节距离K个音节对一一对应,所述K个原始音节和所述K个识别音节构成K个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度,K为大于或等于1的整数;根据所述N个音节距离和所述K个音节距离,对所述滤波模型进行训练。从而,能够扩大用于训练滤波模型的数据的数量,能够进一步提高识别准确率。可选地,该第一语料的声音信号是基于第一拾音设备获取的,该第一拾音设备是用于获取该第二语料的声音信号的拾音设备。可选地,该第三语料的声音信号是基于第一拾音设备获取的,该第一拾音设备是用于获取该第一语料的声音信号的拾音设备。通过基于同一声音信号进行上述训练过程和语音识别过程,能够进一步提高滤波模型与语音识别引擎的匹配程度,从而,进一步能够进一步提高语音识别的准确性。在本申请实施例中通过使采集的语音数据训练滤波模型的拾音设备与在实际使用中采集滤波模型的滤波对象的拾音设备一致,能够使滤波模型的应用条件与拾音设备相匹配。也就是说,采用该方法,可以使得滤波模型、语音识别引擎以及拾音设备三者相匹配,有利于提高识别准确率。可选地,每个音节包括至少一个音素,该根据该N个音节原始音节和该N个识别音节,确定N个音节距离,包括:获取第一映射关系信息,该第一映射关系信息用于指示多个音素彼此之间的音素距离,其中,任意两个音素之间的音素距离用于指示该任意两个音素之间的相似度;根据所示第一映射关系信息,确定该N个音节距离。可选地,该根据所示第一映射关系信息,确定该N个音节距离,包括:确定该N个原始音节包括的W个原始音素,并确定该N个识别音节包括的W个识别音素,该W个原始音素与该W个识别音素一一对应,W为大于或等于1的整数;根据该第一映射关系,确定W个音素距离,其中,该W个音素距离与该W个音素对一一对应,每个音素距离是所对应的音素对所包括的音素之间的音素距离,其中,一个音素对包括彼此对应的一个原始音素和一个识别音素;根据该W个音素距离,确定该N个音节距离。可选地,该根据该W个音素距离,确定该N个音节距离,包括:将该W个音素距离的平均值,确定该N个音节距离。从而,能够容易地实现音节距离的确定过程。可选地,当N大于或等于2时,该方法还包括:确定该N个原始音节的排列顺序和发音时长;确定该N个识别音节的获取时刻;根据该N个原始音节的排列顺序和发音时长,以及该N个识别音节的获取时刻,确定该N个音节对。从而,能够在N≥2时,容易地实现音节对的确定过程,能够提高本申请的实用性。可选地,该根据该N个音节距离,对该滤波模型进行训练,包括:确定该滤波模型所使用于的环境的环境信息;根据该N个音节距离和该环境信息,对该滤波模型进行训练。可选地,当该滤波模型配置在车辆中时,该环境信息包括以下至少一种信息:车速信息、车窗开闭状态信息或空调风量信息。可选地,该环境信息包括拾音设备的设备信息,例如,拾音设备的型号或制造商等。在本申请实施例中,通过是使采集用于训练滤波模型的语音数据本文档来自技高网...

【技术保护点】
1.一种训练滤波模型的方法,其特征在于,所述方法包括:确定N个原始音节,所述N个原始音节是第一语料的实际读音所包括的音节,N为大于或等于1的整数;确定N个识别音节,所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理,所述N个识别音节和所述N个原始音节一一对应;根据所述N个原始音节和所述N个识别音节,确定N个音节距离,其中,所述N个音节距离与N个音节对一一对应,所述N个原始音节和所述N个识别音节构成N个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度;根据所述N个音节距离,对所述滤波模型进行训练。

【技术特征摘要】
1.一种训练滤波模型的方法,其特征在于,所述方法包括:确定N个原始音节,所述N个原始音节是第一语料的实际读音所包括的音节,N为大于或等于1的整数;确定N个识别音节,所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理,所述N个识别音节和所述N个原始音节一一对应;根据所述N个原始音节和所述N个识别音节,确定N个音节距离,其中,所述N个音节距离与N个音节对一一对应,所述N个原始音节和所述N个识别音节构成N个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度;根据所述N个音节距离,对所述滤波模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据所述N个音节距离,对所述滤波模型进行训练,包括:根据所述第一语料的声音信号和所述N个音节距离确定打分模型;根据所述打分模型和第三语料的声音信号,确定K个音节距离,其中,第三语料的实际读音所包括K个原始音节,所述第三语料的声音信号经过所述第一语音识别处理而获得的识别结果包括K个识别音节,所述K个识别音节与所述K个原始音节一一对应,所述K个音节距离K个音节对一一对应,所述K个原始音节和所述K个识别音节构成K个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度,K为大于或等于1的整数;根据所述N个音节距离和所述K个音节距离,对所述滤波模型进行训练。3.根据权利要求1或2所述的方法,其特征在于,所述对所述滤波模型进行训练,包括:对所述滤波模型进行训练,以使第二语料对应的M个音节距离中的每个音节距离的大小在第一预设范围内,其中,所述M个音节距离与M个音节对一一对应,所述M个音节对所包括的M个原始音节是第二语料的实际读音所包括的音节,所述M个音节对所包括的M个识别音节是所述第二语料的声音信号经过第二语音识别处理而获得的识别结果的音节,所述第二语音识别处理包括基于经过训练后的滤波模型的滤波处理和基于所述语音识别引擎的识别处理,M为大于或等于1的整数。4.根据权利要求3所述的方法,其特征在于,所述第一语料的声音信号是基于第一拾音设备获取的,所述第一拾音设备是用于获取所述第二语料的声音信号的拾音设备。5.根据权利要求1至4中任一项所述的方法,其特征在于,每个音节包括至少一个音素,以及所述根据所述N个音节原始音节和所述N个识别音节,确定N个音节距离,包括:获取第一映射关系信息,所述第一映射关系信息用于指示多个音素彼此之间的音素距离,其中,任意两个音素之间的音素距离用于指示所述任意两个音素之间的相似度;根据所示第一映射关系信息,确定所述N个音节距离。6.根据权利要求5所述的方法,其特征在于,所述根据所示第一映射关系信息,确定所述N个音节距离,包括:确定所述N个原始音节包括的W个原始音素,并确定所述N个识别音节包括的W个识别音素,所述W个原始音素与所述W个识别音素一一对应,W为大于或等于1的整数;根据所述第一映射关系,确定W个音素距离,其中,所述W个音素距离与所述W个音素对一一对应,每个音素距离是所对应的音素对所包括的音素之间的音素距离,其中,一个音素对包括彼此对应的一个原始音素和一个识别音素;根据所述W个音素距离,确定所述N个音节距离。7.根据权利要求6所述的方法,其特征在于,所述根据所述W个音素距离,确定所述N个音节距离,包括:将所述W个音素距离的平均值,确定所...

【专利技术属性】
技术研发人员:聂为然于海
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1