当前位置: 首页 > 专利查询>天津大学专利>正文

一种基于藏文部件的端到端架构拉萨方言语音识别方法技术

技术编号:21481297 阅读:29 留言:0更新日期:2019-06-29 05:40
本发明专利技术公开一种基于藏文部件的端到端架构拉萨方言语音识别方法,主要步骤包括:首先,端到端语音识别架构;其次,提出了更适合低资源语言在此架构上进行训练的策略,包括以下两点:迁移其他语言性能良好的模型作为初始模型和同语系语言初始化原则;然后是高度压缩的基于藏文部件的声学建模单元;最后是类多语言语音识别的系统融合。本发明专利技术有效的提高其在端到端架构上的语音识别准确率,并利用多语言语音识别的思路进行两种建模单元级别的系统融合以进一步提升性能。

【技术实现步骤摘要】
一种基于藏文部件的端到端架构拉萨方言语音识别方法
本专利技术属于自动语音识别领域,主要是有关提高藏语这种低资源语言的语音识别性能的技术。
技术介绍
语言是文化的载体和传播媒介,因而针对藏语语言的保护性技术也在不断深入。在藏语语系中,主要有三大方言,即拉萨方言、康巴方言和安多方言,其中拉萨方言在三大方言中使用人群范围较广,数目较多。且具有大量历史悠久的经典西藏手稿文件,因此成为影响力最深远的一种。因此以往的关于藏语的语音识别技术也大多集中在这类方言上。目前有关藏语的语音识别技术仍然由于资源匮乏而发展缓慢。现有的研究都集中在传统的语音识别架构上,通过解码器连结声学模型、语言模型和发音词典来进行语音识别系统搭建,构建速度和解码速度较慢,且需要分别提升声学模型和语言模型的性能。而受传统架构的隐马尔科夫模型(HMM)结构与语音的对齐问题所限,现有研究采用的声学模型建模单元都是音素,这是语音识别技术通用的最小建模单元。当前研究未能抓住藏语语言独有特性,来提升语音识别的系统的性能。
技术实现思路
针对藏语这一低资源语言的语音识别,本专利技术旨在直接实现语音的输入与解码识别,去除繁杂的对齐工作与发音词典制作工作,并力求挖掘其本身特性促进技术的持续发展。而目前兴起的端到端架构,有效的简化了语音识别系统的构建过程,并解决了对齐问题。因此,本专利技术将藏语的语音识别迁移到端到端架构,并针对藏文的本身文字组合结构和发音拼读的特性,结合低资源语言这一困难条件,提出了一种基于藏文部件的端到端架构拉萨方言语音识别方法。并在此基础上,进行系统融合以进一步提高识别效果。本专利技术的技术方案是:一种基于藏文部件的端到端架构拉萨方言语音识别方法,具体步骤包括以下四部分:(1)端到端语音识别架构——转换器模型其中,编码器的输入端是语音的声学特征序列,输出是一组中间表达序列;而编码器的输出也正是解码器的输入,根据这组中间表达序列,解码器的输出端给出由建模单元组成的预测结果;(2)针对低资源语言的端到端架构初始化策略提出了更适合低资源语言在此架构上进行训练的策略,包括以下两点:a)迁移其他语言性能良好的模型作为初始模型不采用随机初始化全部模型参数的方式来初始化训练模型,而是使用其他资源丰富的语言先行进行同样规模的模型训练,并测试其性能,将训练完成后的性能良好的模型迁移至低资源语言的端到端架构上作为初始模型开始训练,以代替随机初始化模型;b)同语系语言初始化原则这种原则主要基于上一种策略,提出对初始模型的一项最佳策略,即选用与低资源语言同语系的资源丰富语言作为初始模型的实验对象;(3)高度压缩的基于藏文部件的声学建模单元每个部件都有其特定的发音,且整个藏文字的发音正是基于构成它的每个部件的发音,即:将每个部件的发音按照组合的顺序拼读;(4)类多语言语音识别的系统融合采用一种类似多语言语音识别的方法,为拉萨方言这个单语语音识别系统采用了不同建模单元级别的系统融合。所述步骤(4)具体策略是:将字级别建模单元的藏文字和藏文部件级别建模单元的藏文字,当作两种不同的语言进行统一组合处理,采用类似多语言语音识别训练资源共享的思路,将建模单元扩充至原有的两种建模单元的总和,进行两种建模单元的声学特征及对应转录文本的共同训练;在解码阶段,由系统自动选择解码的建模级别,两种建模单元在解码阶段不会产生混淆,并进行简单的后期处理,以统一解码单元为字级别并计算字级别错误率。后期处理包括,将由藏文部件级别的建模单元解码结果组合为对应的字级别文本,并保留本身就为字级别的建模单元的解码结果。有益效果这种方法不仅为低资源语言在端到端架构进行语音识别任务提出了通用的训练策略,也着重抓住了藏语本身的独特性发音方式及构字结构,从而针对藏语拉萨方言,进一步有效的提高其在端到端架构上的语音识别准确率,并利用多语言语音识别的思路进行两种建模单元级别的系统融合以进一步提升性能。本专利技术的工作为之后的拉萨方言语音识别工作开拓了一条新的思路,为推动现有拉萨方言语音识别研究做出了贡献。附图说明图1是转换器模型架构图;图2是世界使用人数较多的各个语言的语系分布图;图3是藏文字构字结构图:(a)一个藏文字的构字示例图;(b)藏文字各藏文部件的位置及构字结构图;图4是一个藏文字及其拆解后的藏文部件示例图;图5是边界标记在组合解码结果中的作用示意图。具体实施方式下面结合实验过程及实验结果对本专利技术做进一步详细地描述和证明。本专利技术将藏语的语音识别迁移到端到端架构,采用目前已进行一些语音识别工作并取得可观效果的基于注意力机制的编码器-解码器模型——转换器(transformer),并在此基础上,将拉萨方言这种语言的独特性应用到语音识别的任务中;即提出了这种低资源语言适应端到端架构的策略,并首次将藏文部件作为高度压缩的声学建模单元用以提高语音识别系统的性能。并在此基础上,进一步采用一种类多语言语音识别的方法,对两个建模粒度的识别系统进行系统融合。具体技术方案要点分为以下四部分:(1)端到端语音识别架构——转换器模型基于自动语音识别任务的转换器模型主要由编码器和解码器组成端到端的架构。其中,编码器的输入端是语音的声学特征序列,输出是一组中间表达序列。而编码器的输出也正是解码器的输入,根据这组中间表达序列,解码器的输出端给出由建模单元组成的预测结果。图1给出了该模型的架构图,其编码器和解码器都主要由三部分组成,即:多头的自我关注组件(multi-headself-attention,MHA),位置编码组件(positional-encoding,PE)和基于位置的前馈网络(position-wisefeed-forwardnetworks,PFFN)。位置编码组件能够提供序列内每个标记的相对或绝对位置;多头的自我关注组件能够更好的利用位置信息,将一个序列的不同位置联系起来,来计算这个序列的表达;前馈网络主要进行进一步的训练和线性变换,以适应输出或进行分类。该模型能有效在端到端架构上进行语音识别任务。本专利技术主要使用的端到端架构就是该模型。(2)针对低资源语言的端到端架构初始化策略端到端的转换器模型需要通过随机初始化来赋值模型参数,且模型参数相对来说数量庞大。而低资源语言整个数据库仅有几十小时的语音数据,存在模型参数训练不足或训练集过拟合的问题,这一问题也会严重影响低资源语言语音识别系统的实际性能。基于此种理论基础,本专利技术提出了更适合低资源语言在此架构上进行训练的策略。包括以下两点:c)迁移其他语言性能良好的模型作为初始模型不采用随机初始化全部模型参数的方式来初始化训练模型,而是使用其他资源丰富的语言先行进行同样规模的模型训练,并测试其性能,将训练完成后的性能良好的模型迁移至低资源语言的端到端架构上作为初始模型开始训练,以代替随机初始化模型。这种策略是专门针对低资源语言提出的,能通过迁移其他语言的良好模型补偿低资源语言的训练问题,解决低资源语言直接应用至端到端架构上性能严重下降的问题。d)同语系语言初始化原则这种原则主要基于上一种策略,提出对初始模型的一项最佳策略,即选用与低资源语言同语系的资源丰富语言作为初始模型的实验对象。目前世界上存在的各种语言,在发音,构字及语法方面都有诸多不同,但部分语言从某种程度上说存在一定的相似性,本文档来自技高网...

【技术保护点】
1.一种基于藏文部件的端到端架构拉萨方言语音识别方法,其特征在于,具体步骤包括以下四部分:(1)端到端语音识别架构——转换器模型其中,编码器的输入端是语音的声学特征序列,输出是一组中间表达序列;而编码器的输出也正是解码器的输入,根据这组中间表达序列,解码器的输出端给出由建模单元组成的预测结果;(2)针对低资源语言的端到端架构初始化策略提出了更适合低资源语言在此架构上进行训练的策略,包括以下两点:a)迁移其他语言性能良好的模型作为初始模型不采用随机初始化全部模型参数的方式来初始化训练模型,而是使用其他资源丰富的语言先行进行同样规模的模型训练,并测试其性能,将训练完成后的性能良好的模型迁移至低资源语言的端到端架构上作为初始模型开始训练,以代替随机初始化模型;b)同语系语言初始化原则这种原则主要基于上一种策略,提出对初始模型的一项最佳策略,即选用与低资源语言同语系的资源丰富语言作为初始模型的实验对象;(3)高度压缩的基于藏文部件的声学建模单元每个部件都有其特定的发音,且整个藏文字的发音正是基于构成它的每个部件的发音,即:将每个部件的发音按照组合的顺序拼读;(4)类多语言语音识别的系统融合采用一种类似多语言语音识别的方法,为拉萨方言这个单语语音识别系统采用了不同建模单元级别的系统融合。...

【技术特征摘要】
1.一种基于藏文部件的端到端架构拉萨方言语音识别方法,其特征在于,具体步骤包括以下四部分:(1)端到端语音识别架构——转换器模型其中,编码器的输入端是语音的声学特征序列,输出是一组中间表达序列;而编码器的输出也正是解码器的输入,根据这组中间表达序列,解码器的输出端给出由建模单元组成的预测结果;(2)针对低资源语言的端到端架构初始化策略提出了更适合低资源语言在此架构上进行训练的策略,包括以下两点:a)迁移其他语言性能良好的模型作为初始模型不采用随机初始化全部模型参数的方式来初始化训练模型,而是使用其他资源丰富的语言先行进行同样规模的模型训练,并测试其性能,将训练完成后的性能良好的模型迁移至低资源语言的端到端架构上作为初始模型开始训练,以代替随机初始化模型;b)同语系语言初始化原则这种原则主要基于上一种策略,提出对初始模型的一项最佳策略,即选用与低资源语言同语系的资源丰富语言作为初始模型的实验对象;(3)高度压缩的基于藏文部件的声学建模...

【专利技术属性】
技术研发人员:党建武潘立馨王龙标
申请(专利权)人:天津大学
类型:发明
国别省市:天津,12

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1