【技术实现步骤摘要】
基于拼音对齐算法的语音识别多模型结果合并方法及装置
[0001]本专利技术涉及语音识别
,尤其是涉及基于拼音对齐算法的语音识别多模型结果合并方法及装置。
技术介绍
[0002]近年来,在深度学习技术的持续发展推动下,端到端的语音识别技术大放异彩。国内语音识别技术领先的单位,在汉语语音识别的通用场景识别技术研发上,投入了巨大的人力和财力,并且在绝大部分通用场景下都能取得令人满意的识别准确率。但是,在实际的业务场景落地之中,中小公司很难直接使用大公司开源的语音识别引擎,往往需要利用大公司开源的语音识别引擎对语料进行预标注后,再进行人工标注,然后再训练模型。但是,单一的预标注结果往往会有比较大的偏差,在工业界,通常都会采用融合多模型的标注结果来提高整体的准确率。因此,在冷启动阶段,如果能同时利用多方开源的识别引擎,可以提升预标注的质量。由此,亟需一种低成本的多模型结果合并方法。
技术实现思路
[0003]为解决现有技术的不足,实现提升语料预标注质量的目的,本专利技术采用如下的技术方案:
[0004]基 ...
【技术保护点】
【技术特征摘要】
1.基于拼音对齐算法的语音识别多模型结果合并方法,其特征在于包括如下步骤:步骤S1:构建业务领域范围内的拼音
‑
汉字的映射数据对;步骤S2:基于拼音
‑
汉字的映射数据对,训练拼音翻译汉字模型;步骤S3:利用至少两种不同的语音识别模型生成的文本序列,分别转化为对应的拼音序列;步骤S4:利用拼音对齐算法,对齐不同的拼音序列,得到候选拼音对齐序列,包括如下步骤:步骤S4.1:以最大化局部相似性为原则,利用动态规划的思想,构建待对齐拼音序列的相似度矩阵;步骤S4.2:利用贪心的思想,从相似度矩阵中找到一条最优对齐路径,并根据设定的拼音生成规则,生成候选拼音对齐序列;步骤S5:利用训练好的拼音翻译汉字模型,将已对齐的候选拼音对齐序列映射为汉字序列。2.根据权利要求1所述的基于拼音对齐算法的语音识别多模型结果合并方法,其特征在于:所述步骤S1中,映射方式是建立汉字到拼音的映射表,将文本数据映射转写为对应的拼音序列,同时保留声母、韵母和音调;所述步骤S3中,映射方式是基于所述汉字到拼音的映射表,将文本数据映射转写为对应的拼音序列,同时标注出声母、韵母和音调。3.根据权利要求2所述的基于拼音对齐算法的语音识别多模型结果合并方法,其特征在于:所述步骤S1中的映射表,是规整好词组到拼音的映射表。4.根据权利要求1所述的基于拼音对齐算法的语音识别多模型结果合并方法,其特征在于:所述步骤S4.1中,采用拼音序列相似度分数的计算规则,对同一位置的相似度累计和,两个序列的相似度计算公式为其中长度更长的序列默认为冗余度更高的,即将短序列向长序列对齐:其中A、B分别表示进行相似度比较的两个拼音序列,Score(
·
)表示相似度分数,Sim(
·
)表示相似度函数,len(
·
)表示长度获取函数。5.根据权利要求4所述的基于拼音对齐算法的语音识别多模型结果合并方法,其特征在于:基于短序列向长序列对齐,在短序列对应位置添加<UNK>,构建相似度矩阵M,基于相似度矩阵,寻找一条最符合目标的对齐路径;相似度矩阵各个位置的动态转移方程为:其中M(i,j)表示拼音序列A(a1,a2...ai)和拼音序列B(b1,b2...bj)对齐后的序列最大相似度,i、j分别表示拼音序列A、B的长度序数。6.根据权利要求5所述的基于拼音对齐算法的语音识别多模...
【专利技术属性】
技术研发人员:陶金,陈禹,汪健,
申请(专利权)人:杭州健海科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。