一种语音识别结果纠错方法及装置制造方法及图纸

技术编号:39403522 阅读:18 留言:0更新日期:2023-11-19 15:55
本发明专利技术涉及一种语音识别结果纠错方法,所述方法包括:采用含有错误的语音识别结果文本及其对应的标签序列构建第一样本集;采用含有错误的语音识别结果文本与其对应的正确文本构建第二样本集;基于第一样本集训练错误发现模型;通过迁移学习方法,将训练好的错误发现模型Bi

【技术实现步骤摘要】
一种语音识别结果纠错方法及装置


[0001]本专利技术涉及人工智能语言信息处理和语音识别领域,尤其是一种语音识别结果纠错方法及装置。

技术介绍

[0002]自动语音识别即ASR(Automatic Speech Recognition),是一种把语音信号转换为文本序列的语音处理技术。传统的语音识别需要对语音信号进行分帧加窗等预处理、提取特征如MFCC(Mel

Frequency Cepstral Coefficients,梅尔倒谱系数)、建立声学模型如HMM(Hidden Markov Model,隐马尔可夫模型)、建立语言模型如N

Gram模型、使用解码器搜索最可能的识别结果,通常需要独立的组件,会导致语音识别系统的错误传递问题。近年来,在深度学习和人工神经网络模型等技术发展的推动下,出现了端到端自动语音识别技术。与传统ASR系统不同,端到端模型通过直接从原始语音信号到文本序列的映射,实现了端到端的语音识别过程,无需手动设计特征提取和声学模型。端到端常见的模型有RNN(Recurrent Neural 本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种语音识别结果纠错方法,其特征在于,包括:采用含有错误的语音识别结果文本及其对应的标签序列构建第一样本集;采用含有错误的语音识别结果文本与其对应的正确文本构建第二样本集;基于第一样本集训练错误发现模型;通过迁移学习方法,将训练好的错误发现模型Bi

LSTM层的参数移植到错误纠正模型编码器的Bi

LSTM层,基于第二样本集训练该错误纠正模型;其中,所述错误发现模型包含至少一个Bi

LSTM层、一个SoftMax激活函数层;所述错误纠正模型包含编码器和解码器,编码器包含至少一个Bi

LSTM层;所述标签序列,为词语标签序列或音节标签序列,是指对任一含有错误的语音识别结果文本,对照其对应的正确文本,分别对其各词语或各音节标注正确/错误标签,得到的词语标签序列或音节标签序列。2.根据权利要求1所述的方法,其特征在于,对于任一种全音位语言,所述训练错误发现模型前,还包括:对该种全音位语言语料库中各文本进行音节切分,取不重复的音节构成音节集合;基于音节集合和语料库音节切分结果,采用GloVe模型的训练方法,得到音节向量矩阵。3.根据权利要求2所述的方法,其特征在于,所述错误发现模型还包括嵌入层,所述训练错误发现模型前还包括:将音节向量矩阵作为该嵌入层的初始化参数并固化。4.根据权利要求3所述的方法,其特征在于,所述构建第一样本集,包括:对任一含有错误的音节文本执行,对该含有错误的语音识别结果文本和其对应的正确文本,进行音节切分,得到含有错误的音节文本和其对应的正确的音节文本;采用Levenshtein Distance算法,以得到的正确的音节文本为标准,确定该含有错误的音节文本各字符正确/错误,或是空格,并标注相应的正确/错误/空格标签,得到字符标签序列;对字符标签序列中以空格标签隔开的对应于任一音节的序列,均为正确标签,则合并为一个正确标签;否则,则合并为一个错误标签,并将空格标签还原为空格,得到该含有错误的音节文本对应的音节标签序列;以该含有错误的音节文本和其对应的音节标签序列为第一样本集的样本。5.根据权利要求2所述的方法,其特征在于,所述错误纠正模型还包括嵌入层,所述训练错误纠正模型前还包括:将音节向量矩阵作为该嵌入层的初始化参数并固化。6.根据权利要求5所述的方法,其特征在于,所述构建第二样本集,包括...

【专利技术属性】
技术研发人员:韦向峰张全袁毅池毓焕
申请(专利权)人:中国科学院声学研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1