一种基于多编码器的通话语音识别方法技术

技术编号:38612362 阅读:12 留言:0更新日期:2023-08-26 23:40
本发明专利技术公开了一种基于多编码器的通话语音识别方法,首先对通话语音按声道信息进行说话人分类;将分类好的语音按说话时间和空白信息进行切分排序;对排序好的语音进行预处理,并转为80维的Fbank特征;将Fbank特征按照前一句、识别句和后一句进行拼接作为语境信息的来源;将拼接后的语音和目标句分别输入到两个不同的编码器中,按照不同的方式进行语境信息的融合,获得包含语境信息的隐空间特征;再输入到历史解码器中,在历史解码器中与之前识别的文本特征进行融合,得到包含上下文的特征信息;最终进行解码操作得到目标语音的识别结果。本发明专利技术通过充分挖掘通话中的语境信息,弥补了传统语音识别对于语境信息的缺失,提高了通话语音识别的精度。通话语音识别的精度。通话语音识别的精度。

【技术实现步骤摘要】
一种基于多编码器的通话语音识别方法


[0001]本专利技术属于模式识别
,具体涉及一种通话语音识别方法。

技术介绍

[0002]随着语音识别的不断发展,越来越多的识别模型被不断地提出,其中典型的模型如:基于Transformer的模型和基于Transducer的模型,都可以在语音识别上达到很好的应用效果,但是大部分的真实场景中人们的语音对于以对话形式出现的,例如通话语音来说,整个世界每天都会产生大量的通话语音数据,不过因为现阶段通话语音数据的隐私保护和缺少标注数据的问题,一直没有出现的一个专门针对通话语音这一领域进行识别的模型,现在很多通话语音识别的商用方案都是分为单条语音进行识别,并未考虑到通话中语境信息对于识别效果的补足。
[0003]语境信息作为通话语音识别中很重要的一个因素,其中包含了当前通话的主题、相关的名字和经常出现在该主题中的字词。传统的语音识别对于这些语境的利用大多采用WFST构图的方式来解决,通过对于规定的热词进行训练以此来达到语境特征的使用。但是这样的构图方法只能是针对单一的场景,并且规定的热词也需要专家系统进行评估,为解决这个问题,人们从NLP中的机器翻译和问答系统采用的方法进行探究,其中大部分都是以Transformer模型为基础改进,但是该模型在长序列问题上存在一个致命的问题,就是序列的长度直接影响到高计算量和内存成本的问题。

技术实现思路

[0004]为了克服现有技术的不足,本专利技术提供了一种基于多编码器的通话语音识别方法,首先对通话语音按声道信息进行说话人分类;将分类好的语音按说话时间和空白信息进行切分排序;对排序好的语音进行预处理,并转为80维的Fbank特征;将Fbank特征按照前一句、识别句和后一句进行拼接作为语境信息的来源;将拼接后的语音和目标句分别输入到两个不同的编码器中,按照不同的方式进行语境信息的融合,获得包含语境信息的隐空间特征;再输入到历史解码器中,在历史解码器中与之前识别的文本特征进行融合,得到包含上下文的特征信息;最终进行解码操作得到目标语音的识别结果。本专利技术通过充分挖掘通话中的语境信息,弥补了传统语音识别对于语境信息的缺失,提高了通话语音识别的精度。
[0005]本专利技术解决其技术问题所采用的技术方案包括如下步骤:
[0006]步骤1:对通话语音按声道信息进行分类;
[0007]步骤2:将分类好的语音以空白信息进行切分后按照说话开始时间进行排序;
[0008]步骤3:对排序好的语音进行预处理,将语音的声学信号转为80维的Fbank特征,并将通话语音的标注文本中字统计到词库中;
[0009]步骤4:将Fbank特征,按照前一句、目标句和后一句进行拼接作为语境信息的来源;对拼接后的语音和目标句分别输入到两个不同的编码器中,按照外部融合或内部融合
进行语境信息融合,获得包含语境信息的隐空间特征;
[0010]步骤5:将隐空间特征输入到历史解码器中,在历史解码器中与已识别的文本特征进行融合,得到包含上下文的特征信息;
[0011]步骤6:将步骤5得到的包含上下文的特征信息输入到解码器中进行有掩码的解码操作,从而获得解码特征信息;
[0012]步骤7:将解码特征信息输入预设归一化指数函数中,得到目标语音的识别结果。
[0013]进一步的,所述步骤2具体为:
[0014]按照最小音量、两句话之间最大时间间隔、单个音频最小时间长度这个三个指标进行切分,具体切分过程如下:
[0015]步骤2

1:其中空白声段中会存在背景噪音,通过最小音量进行过滤,将小于最小音量的片段进行删除;
[0016]步骤2

2:为保证最小音量不会删除边界声音即一句话后结尾的尾音,通过两句话之间最大时间间隔控制声音的结尾;
[0017]步骤2

3:通过单个音频最小时间长度删除通话语音中存在的一部分大于最小音量但存在时间小于设定阈值短且不包含有效信息的语音,最终得到切分好的音频;
[0018]步骤2

4:将通过指标切分好的音频通过说话开始时间进行排序。
[0019]进一步的,所述步骤3的具体实现步骤是:预处理采用Fbank的输出模式,其过程包括:
[0020]步骤3

1:进行预加重处理,通过一个高通滤波器将语音信号的中低频波段过滤;
[0021]步骤3

2:将通过高通滤波器的语音信号进行分帧处理,即把不定长的音频切分成固定长度的小段,得到分帧后的语音信号wav[X1,X2,X3,

,Xn];
[0022]步骤3

3:设置一个滑动汉明窗函数对分帧后的语音信号进行傅里叶变换,将语音数据从时域信号转变成频域信号;
[0023]wav_frame=hamming(wav,10ms)
[0024]wav_data=fft(wav_frame)
[0025]步骤3

4:将获取的频域信号通过对数梅尔谱滤波完成Fbank的计算,得到频谱为80维的Fbank特征:
[0026]wav
Fbank
=log_mel(wav_data)。
[0027]步骤3

5:将通话语音对应标记文本中出现的字统计到词库中,保证不重复的情况下,用数字索引在代替这些字。
[0028]进一步的,所述步骤4的具体实现步骤是:
[0029]步骤4

1:将Fbank特征按照目标句的前一句、后一句与目标句进行拼接组成语境信息Can
wav

[0030]Con
wav
=Cat(wav1,wav2,wav3)
[0031]其中,wav1,wav2,wav3分别表示目标句、目标句的前一句和后一句;Cat(.)表示拼接;
[0032]步骤4

2:选择外部融合或内部融合中的一种进行特征融合,得到隐空间特征;
[0033]步骤4
‑2‑
1:外部融合,由Longformer编码器和Conformer编码器组成;
[0034]将语境信息Con
wav
输入到Longformer编码器中获得其在隐空间的高级特征C
out
;将
目标句wav1输入到Conformer编码器中获得其在隐空间的高级特征S
out
;接着将这两个高级特征一同输入到一个注意力层中,之后将注意力层中获得的高级特征C
feature
与Conformer编码器中得到S
out
通过门控机制进行融合,最后一起输入到Decoder层进行解码操作表示如下:
[0035]S
out
=Conformer(wav1)
[0036]C
out
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多编码器的通话语音识别方法,其特征在于,包括如下步骤:步骤1:对通话语音按声道信息进行分类;步骤2:将分类好的语音以空白信息进行切分后按照说话开始时间进行排序;步骤3:对排序好的语音进行预处理,将语音的声学信号转为80维的Fbank特征,并将通话语音的标注文本中字统计到词库中;步骤4:将Fbank特征,按照前一句、目标句和后一句进行拼接作为语境信息的来源;对拼接后的语音和目标句分别输入到两个不同的编码器中,按照外部融合或内部融合进行语境信息融合,获得包含语境信息的隐空间特征;步骤5:将隐空间特征输入到历史解码器中,在历史解码器中与已识别的文本特征进行融合,得到包含上下文的特征信息;步骤6:将步骤5得到的包含上下文的特征信息输入到解码器中进行有掩码的解码操作,从而获得解码特征信息;步骤7:将解码特征信息输入预设归一化指数函数中,得到目标语音的识别结果。2.根据权利要求1所述的一种基于多编码器的通话语音识别方法,其特征在于,所述步骤2具体为:按照最小音量、两句话之间最大时间间隔、单个音频最小时间长度这个三个指标进行切分,具体切分过程如下:步骤2

1:其中空白声段中会存在背景噪音,通过最小音量进行过滤,将小于最小音量的片段进行删除;步骤2

2:为保证最小音量不会删除边界声音即一句话后结尾的尾音,通过两句话之间最大时间间隔控制声音的结尾;步骤2

3:通过单个音频最小时间长度删除通话语音中存在的一部分大于最小音量但存在时间小于设定阈值短且不包含有效信息的语音,最终得到切分好的音频;步骤2

4:将通过指标切分好的音频通过说话开始时间进行排序。3.根据权利要求2所述的一种基于多编码器的通话语音识别方法,其特征在于,所述步骤3的具体实现步骤是:预处理采用Fbank的输出模式,其过程包括:步骤3

1:进行预加重处理,通过一个高通滤波器将语音信号的中低频波段过滤;步骤3

2:将通过高通滤波器的语音信号进行分帧处理,即把不定长的音频切分成固定长度的小段,得到分帧后的语音信号wav[X1,X2,X3,

,Xn];步骤3

3:设置一个滑动汉明窗函数对分帧后的语音信号进行傅里叶变换,将语音数据从时域信号转变成频域信号;wav_frame=hamming(wav,10ms)wav_data=fft(wav_frame)步骤3

4:将获取的频域信号通过对数梅尔谱滤波完成Fbank的计算,得到频谱为80维的Fbank特征:wav
Fbank
=log_mel(wav_data)步骤3

5:将通话语音对应标记文本中出现的字统计到词库中,保证不重复的情况下,用数字索引在代替这些字。4.根据权利要求3所述的一种基于多编码器的通话语音识别方法,其特征在于,所述步
骤4的具体实现步骤是:步骤4

1:将Fbank特征按照目标句的前一句、后一句与目标句进行拼接组成语境信息Con
wav
;Con
wav
=Cat(wav1,wav2,wav3)其中,wav1,wav2,wav3分别表示目标句、目标句的前一句和后一句;Cat(.)表示拼接;步骤4

2:选择外部融合或内部融合中的一种进行特征融合,得到隐空间特征;步骤4
‑2‑
1:外部融合,由Longformer编码器和Conformer编码器组成;将语境信息Con
wav
输入到Longformer编码器中获得其在隐空间的高级特征C
out
;将目标句wav1输入到Conformer编码器中获得其在隐空间的高级特征S
out
;接着将这两个高级特征一同输入到一个注意力层中,之后将注意力层中获得的高级特征C
feature
与Conformer编码器中得到S
out
通过门控机制进行融合,最后一起输入到Decoder层进行解码操作表示如下:S
out
=Conformer(wav1)C
out
=Longformer(Con
wav
)C
feature
=Attention(Q=S
out
,K=C
out
,V=C
out
)C
feature
=cat(S
out
,C
out
)g=sigmoid(C
feature
)S

out
=g*C
fe...

【专利技术属性】
技术研发人员:邱原肖浩魏锦波刘作黎聪寇佳威张闯阮梓涵
申请(专利权)人:广西东信易通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1