本发明专利技术提供一种在线端对端语音转写方法及系统,在一个实施例中,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。
An online end-to-end voice transcribing method and system
【技术实现步骤摘要】
一种在线端对端语音转写方法及系统
本专利技术涉及语音转写
,尤其涉及一种在线端对端语音转写方法及系统。
技术介绍
语音转写技术是将输入的音频转换为文本的重要技术,也是人机交互领域的一个重要研究内容。传统的语音转写技术包含声学模型、发音字典和语言模型,并且借助加权有限状态转换机构建复杂的解码网络,将声学特征序列转换为文本序列。当前新兴的端对端语言转写技术采用单个神经网络模型,直接将声学特征转换为文本序列,极大地简化了语音转写过程中的解码流程。但是目前的高性能的端对端语音转写必须等待完整的音频输入后,才能开始转换为文本序列,限制了端对端语音转写技术应用于实时转写的在线任务。
技术实现思路
有鉴于此,本申请实施例提供了一种在线端对端语音转写方法及系统,克服了现有的端对端语音转写技术不能应用于实时转写在线任务的问题,通过改进基于编码器和解码器结构的端对端语音转写技术,使得编码器和解码器不再依赖完整的音频就能开始转换为文本序列。第一方面,本专利技术申请提供了一种在线端对端语音转写方法包括:获取音频文件,对所述音频文件提取声学特征;对所述声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;将分数最高的汉字序列作为最终转写结果。可选地,所述获取音频文件,对所述音频文件提取声学特征包括:对获取的音频文件提取对数梅尔谱特征作为帧级别声学特征。可选地,所述编码器为基于自注意力机制的在线编码器;所述编码器由12个相同的子模块堆叠组成,每个子模块依次由自注意力网络、残差网络、层规范化网络、全连接网络、残差网络和层规范化网络堆叠组成。可选地,所述对所述第二特征序列进行处理,输出多组汉字序列并对所述多组汉字序列进行打分包括:构建基于自注意力机制的在线解码器,所述解码器对第二特征序列进行建模,并对输出的多组汉字序列进行打分;所述解码器由6个相同的子模块堆叠组成,其中每个子模块为一层自注意力网络、一层残差网络、一层层规范化网络、一层截断注意力网络、一层残差网络、一层层规范化网络、一层全连接网络、一层残差网络和一层层规范化网络。可选地,所述解码器对第二特征序列进行建模,并对输出的多组汉字序列进行打分包括:将多组第二特征序列依次通过所述解码器的6个子模块,将最后一个子模块的层规范网络的输出特征输入汉字分类器;所述汉字分类器输出多组汉字以及每组汉字对应的分数;取排名前十的汉字分别输入解码器输出下一个汉字,直到解码器输出终止符为止。第二方面,本专利技术申请提供了一种在线端对端语音转写系统包括:采集单元:用于采集音频,并对所述音频提取声学特征;处理单元:用于对采集单元提取的声学特征进行非线性变换和降采样并输出第一特征序列;将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;所述处理单元还用于,对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;输出单元:用于将处理单元输出的汉字序列中分数最高的汉字序列作为最终转写结果,并输出。可选地,对所述音频提取声学特征包括:对获取的音频文件提取对数梅尔谱特征作为帧级别声学特征。可选地,所述编码器为基于自注意力机制的在线编码器;所述编码器由12个相同的子模块堆叠组成,每个子模块依次由自注意力网络、残差网络、层规范化网络、全连接网络、残差网络和层规范化网络堆叠组成。可选地,所述对所述第二特征序列进行处理,输出多组汉字序列并对所述多组汉字序列进行打分包括:构建基于自注意力机制的在线解码器,所述解码器对第二特征序列进行建模,并对输出的多组汉字序列进行打分;所述解码器由6个相同的子模块堆叠组成,其中每个子模块为一层自注意力网络、一层残差网络、一层层规范化网络、一层截断注意力网络、一层残差网络、一层层规范化网络、一层全连接网络、一层残差网络和一层层规范化网络。可选地,所述解码器对第二特征序列进行建模,并对输出的多组汉字序列进行打分包括:将多组第二特征序列依次通过所述解码器的6个子模块,将最后一个子模块的层规范网络的输出特征输入汉字分类器;所述汉字分类器输出多组汉字以及每组汉字对应的分数;取排名前十的汉字分别输入解码器输出下一个汉字,直到解码器输出终止符为止。本申请实施例提供一种在线端对端语音转写方法及系统,在一个实施例中,对音频提取对数梅尔谱特征作为帧级别声学特征;构建前端神经网络,将对数梅尔谱特征进行非线性变换和降采样;构建基于自注意力机制的在线编码器,对前端神经网络的输出特征序列进行建模,并输出一组新的特征序列;构建基于自注意力机制的在线解码器,对编码器输出的特征序列进行建模,并输出多组汉字序列;利用束搜索算法搜索分数最高的汉字序列,并作为最终的转写结果。通过改进编码器结构,让其处理分块的音频;通过改进解码器的结构,让其在截断音频的基础上输出汉字。使得在输入音频的同时转写文本。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。图1为本专利技术申请一种在线端对端语音转写系统的结构示意图;图2为本专利技术申请一种在线端对端语音转写方法的流程图;图3为基于自注意力机制的在线编码器对输入其中的特征序列的处理流程图;图4为基于自注意力机制的在线解码器对输入其中的特征序列的处理流程图。具体实施方式下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。图1为本专利技术申请一种在线端到端语音转写方法的结构示意图,参见图1,本申请实施例中的一种端到端远场语音识别系统包括:采集单元101、处理单元102和输出单元103。采集单元101用于采集音频信号,并将采集的音频信号通过高通滤波器,进行预加重,提高音频信号中的高频部分。对通过高通滤波器的音频信号进行分帧,每帧25毫秒,帧移10毫秒。对每一帧进行加窗,窗函数为汉明窗。然后对每一帧进行快速傅里叶变换得到各帧的频谱,进一步得到各帧的能量谱。进一步地,对每一帧的能量谱计算通过梅尔滤波器的能量,并取对数,得到对数梅尔谱,其中梅尔滤波器的个数为80,因此每帧得到80维的对数梅尔谱特征。处理单元102包括:第一处理单元1021、第二处理单元1022和第三处理单元1023。第一处理单元1021用于构建前端神经网络。其中,前端神经网络包含两层二维卷积网络,一层线性网络和一层位置编码网络。其中,卷积网络的卷积核大小为3、步长为2,卷积核数量为256,经过两层二本文档来自技高网...
【技术保护点】
1.一种在线端对端语音转写方法,包括:/n获取音频文件,对所述音频文件提取声学特征;/n对所述声学特征进行非线性变换和降采样并输出第一特征序列;/n将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;/n对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;/n将分数最高的汉字序列作为最终转写结果。/n
【技术特征摘要】
1.一种在线端对端语音转写方法,包括:
获取音频文件,对所述音频文件提取声学特征;
对所述声学特征进行非线性变换和降采样并输出第一特征序列;
将第一特征序列进行分块,依次将每块特征序列输入到编码器中并输出多组第二特征序列;
对所述第二特征序列进行建模,输出多组汉字序列并对所述多组汉字序列进行打分;
将分数最高的汉字序列作为最终转写结果。
2.根据权利要求1所述的方法,其特征在于,所述获取音频文件,对所述音频文件提取声学特征包括:
对获取的音频文件提取对数梅尔谱特征作为帧级别声学特征。
3.根据权利要求1所述的方法,其特征在于,所述编码器为基于自注意力机制的在线编码器;
所述编码器由12个相同的子模块堆叠组成,每个子模块依次由自注意力网络、残差网络、层规范化网络、全连接网络、残差网络和层规范化网络堆叠组成。
4.根据权利要求1所述的方法,其特征在于,所述对所述第二特征序列进行处理,输出多组汉字序列并对所述多组汉字序列进行打分包括:
构建基于自注意力机制的在线解码器,所述解码器对第二特征序列进行建模,并对输出的多组汉字序列进行打分;
所述解码器由6个相同的子模块堆叠组成,其中每个子模块由一层自注意力网络、一层残差网络、一层层规范化网络、一层截断注意力网络、一层残差网络、一层层规范化网络、一层全连接网络、一层残差网络和一层层规范化网络构成。
5.根据权利要求4所述的方法,其特征在于,所述解码器对第二特征序列进行建模,并对输出的多组汉字序列进行打分包括:
将多组第二特征序列依次通过所述解码器的6个子模块,将最后一个子模块的层规范网络的输出特征输入汉字分类器;
所述汉字分类器输出多组汉字以及每组汉字对应的分数;
取排名前十的汉字分别输入解码器输出下一个汉字,直到解码器输出终止符为止。
6.一种在线端对端语音...
【专利技术属性】
技术研发人员:张鹏远,缪浩然,程高峰,颜永红,
申请(专利权)人:中国科学院声学研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。