This application provides a method and apparatus for training a filtering model. The method includes: determining N original syllables, which are the actual syllables of the first corpus; determining N recognized syllables, which are the syllables of the recognition result of the first corpus's sound signal processed by the first speech recognition, and the first speech recognition processing package. It includes filtering processing based on the filtering model and recognition processing based on speech recognition engine; N syllable distances are determined according to the N original syllables and the N recognized syllables. The N syllable distances correspond to N syllables one by one. The N original syllables and the N recognized syllables form N syllable pairs, each syllable pair includes one original syllable and one recognized syllable corresponding to each other. Each syllable distance is used to indicate the similarity between the corresponding syllable to the original syllable and the recognized syllable, so as to improve the recognition accuracy of the speech recognition engine.
【技术实现步骤摘要】
训练滤波模型的方法和语音识别的方法
本申请涉及语音识别
,并且更具体地,涉及一种训练滤波模型的方法、语音识别的方法、训练设备、语音识别设备和语音识别系统。
技术介绍
自动语音识别(AutomaticSpeechRecognition,ASR)是语音交互系统的关键技术,ASR引擎(也可以称为语音识别引擎)负责将语音信号转换成文本。图1是ASR引擎进行语音识别的一例的示意性图。如图1所述,经过拾音设备对声音进行采集,获得语音信号经过特征模块提取(频域)特征后,由声学模型转换为音节序列(例如,汉语拼音中的声母和韵母序列)。再通过解码器(decoder)在语言模型中搜索出该音节序列所对应的字符序列(例如,汉字序列)。但是,现有技术中,语言模型中音节序列与字符序列之间的对应关系是基于预设的数据库训练得到的,在实际使用中,受到环境和用户的发音习惯等的影响,可能导致对于同一语音在数据库中的声音信号与实际采集到的声音信号不一致,导致最终的无法识别出该语音。
技术实现思路
本申请提供一种用于训练滤波模型的方法与设备,有利于提高语音识别引擎进行语音识别的准确率。第一方面,提供了一种训练滤波模型的方法,所述方法包括:确定N个原始音节,所述N个原始音节是第一语料的实际读音所包括的音节,N为大于或等于1的整数;确定N个识别音节,所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理,所述N个识别音节和所述N个原始音节一一对应;根据所述N个原始音节和所述N个识别音节,确定N个 ...
【技术保护点】
1.一种训练滤波模型的方法,其特征在于,所述方法包括:确定N个原始音节,所述N个原始音节是第一语料的实际读音所包括的音节,N为大于或等于1的整数;确定N个识别音节,所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理,所述N个识别音节和所述N个原始音节一一对应;根据所述N个原始音节和所述N个识别音节,确定N个音节距离,其中,所述N个音节距离与N个音节对一一对应,所述N个原始音节和所述N个识别音节构成N个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度;根据所述N个音节距离,对所述滤波模型进行训练。
【技术特征摘要】
1.一种训练滤波模型的方法,其特征在于,所述方法包括:确定N个原始音节,所述N个原始音节是第一语料的实际读音所包括的音节,N为大于或等于1的整数;确定N个识别音节,所述N个识别音节是所述第一语料的声音信号经过第一语音识别处理而获得的识别结果的音节,所述第一语音识别处理包括基于所述滤波模型的滤波处理和基于语音识别引擎的识别处理,所述N个识别音节和所述N个原始音节一一对应;根据所述N个原始音节和所述N个识别音节,确定N个音节距离,其中,所述N个音节距离与N个音节对一一对应,所述N个原始音节和所述N个识别音节构成N个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度;根据所述N个音节距离,对所述滤波模型进行训练。2.根据权利要求1所述的方法,其特征在于,所述根据所述N个音节距离,对所述滤波模型进行训练,包括:根据所述第一语料的声音信号和所述N个音节距离确定打分模型;根据所述打分模型和第三语料的声音信号,确定K个音节距离,其中,第三语料的实际读音所包括K个原始音节,所述第三语料的声音信号经过所述第一语音识别处理而获得的识别结果包括K个识别音节,所述K个识别音节与所述K个原始音节一一对应,所述K个音节距离K个音节对一一对应,所述K个原始音节和所述K个识别音节构成K个音节对,每个音节对包括彼此对应的一个原始音节和一个识别音节,每个音节距离用于指示所对应的音节对所包括的原始音节和识别音节之间的相似度,K为大于或等于1的整数;根据所述N个音节距离和所述K个音节距离,对所述滤波模型进行训练。3.根据权利要求1或2所述的方法,其特征在于,所述对所述滤波模型进行训练,包括:对所述滤波模型进行训练,以使第二语料对应的M个音节距离中的每个音节距离的大小在第一预设范围内,其中,所述M个音节距离与M个音节对一一对应,所述M个音节对所包括的M个原始音节是第二语料的实际读音所包括的音节,所述M个音节对所包括的M个识别音节是所述第二语料的声音信号经过第二语音识别处理而获得的识别结果的音节,所述第二语音识别处理包括基于经过训练后的滤波模型的滤波处理和基于所述语音识别引擎的识别处理,M为大于或等于1的整数。4.根据权利要求3所述的方法,其特征在于,所述第一语料的声音信号是基于第一拾音设备获取的,所述第一拾音设备是用于获取所述第二语料的声音信号的拾音设备。5.根据权利要求1至4中任一项所述的方法,其特征在于,每个音节包括至少一个音素,以及所述根据所述N个音节原始音节和所述N个识别音节,确定N个音节距离,包括:获取第一映射关系信息,所述第一映射关系信息用于指示多个音素彼此之间的音素距离,其中,任意两个音素之间的音素距离用于指示所述任意两个音素之间的相似度;根据所示第一映射关系信息,确定所述N个音节距离。6.根据权利要求5所述的方法,其特征在于,所述根据所示第一映射关系信息,确定所述N个音节距离,包括:确定所述N个原始音节包括的W个原始音素,并确定所述N个识别音节包括的W个识别音素,所述W个原始音素与所述W个识别音素一一对应,W为大于或等于1的整数;根据所述第一映射关系,确定W个音素距离,其中,所述W个音素距离与所述W个音素对一一对应,每个音素距离是所对应的音素对所包括的音素之间的音素距离,其中,一个音素对包括彼此对应的一个原始音素和一个识别音素;根据所述W个音素距离,确定所述N个音节距离。7.根据权利要求6所述的方法,其特征在于,所述根据所述W个音素距离,确定所述N个音节距离,包括:将所述W个音素距离的平均值,确定所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。