语音文档分类方法、系统、设备及存储介质技术方案

技术编号：32490963 阅读：17 留言：0更新日期：2022-03-02 09:57

本发明专利技术公开了一种语音文档分类方法、系统、设备及存储介质，通过融合声学特征和深度特征实现语音文档分类，采用训练好的用于语音识别的声学模型为每个语音文档提取包含语义信息的深度特征，然后将语音文档的底层的声学特征和提取的深度特征通过门控机制逐帧进行融合，融合后的特征用于语音文档分类，本发明专利技术充分利用语音声学和语义信息之间的互补性，融合后的特征具有更强的文档区分性能，从而提升语音文档分类效果；此外，语音文档分类时，无需进行语音识别，直接获得语音文档分类结果，相当于一种端到端的结构，简化了中间的流程，加快了分类速度。快了分类速度。快了分类速度。

全部详细技术资料下载

【技术实现步骤摘要】
语音文档分类方法、系统、设备及存储介质

[0001]本专利技术涉及语音信号处理领域，尤其涉及一种语音文档分类方法、系统、设备及存储介质。

技术介绍

[0002]传统的语音文档分类系统通常由语音识别(automatic speech recognition，ASR)模块和文本文档分类(textual document classification，TDC)模块组成。ASR模块首先将语音识别为文本，TDC模块再根据识别文本的内容进行主题分类。近几年来，ASR和TDC技术都已经取得了很大的进展。
[0003]对于ASR，目前主流的系统有两种，一种是基于HMM的语音识别系统，另一种则是端到端语音识别系统。基于HMM的语音识别系统一般由声学模型，语言模型，发音词典等多个部分组成，训练过程复杂。端到端语音识别系统直接将输入的语音特征序列转化成文本，相比于基于HMM的语音识别系统，其结构更加简单，并且准确率可以达到甚至超越基于HMM的语音识别系统。基于链接时序分类(Connectionist Temporal Classification，CTC)的语音识别系统就是一种典型的端到端结构(Alex Graves,Santiago Fernandez,Faustino Gomez,and Jurgen Schmidhuber,“Connectionist temporal classi
‑
fication:labelling unsegmented sequence data with recurrent n...

【技术保护点】

【技术特征摘要】
1.一种语音文档分类方法，其特征在于，包括：使用LSTM训练基于CTC的声学模型，训练后的模型称为LSTM
‑
CTC模型，对于输入的声学特征序列，通过所述LSTM
‑
CTC模型提取相应的深度特征序列；通过声学特征编码器、深度特征编码器各自对所述声学特征序列、深度特征序列进行编码；通过门控单元将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征；通过融合特征编码器对所述融合特征进行编码；通过分类层对融合特征编码结果进行处理，获得语音文档分类结果。2.根据权利要求1所述的一种语音文档分类方法，其特征在于，对于输入的声学特征序列，通过所述LSTM
‑
CTC模型提取相应的深度特征序列包括：将输入的声学特征序列表示为：x＝{x1，x2，
…
x
T
}，其中，x
t
表示第t帧声学特征，t＝1，2，...，T，T表示总帧数；将声学特征序列通过所述LSTM
‑
CTC模型中的LSTM网络，获得的隐状态序列作为深度特征序列，表示为：h＝{h1，h2，
…
h
T
}，h
t
表示第t帧深度特征。3.根据权利要求1所述的一种语音文档分类方法，其特征在于，所述通过门控单元将声学特征编码器与深度特征编码器的输出进行融合，获得融合特征包括：将声学特征编码器的输出记为u＝{u1，u2，
…
u
T
}，将深度特征编码器的输出记为v＝{v1，v2，
…
v
T
}，其中，u
t
、v
t
各自表示对第t帧声学特征、第t帧深度特征的编码结果，t＝1，2，...，T，T表示总帧数；对深度特征编码器的输出进行最大池化操作，计算门控系数，再基于门控系数融合声学特征编码器与深度特征编码器的输出，表示为：v
max
＝maxpooling(v)g
t
＝sigmoid(W1v
t
+W2v
max
)f
t
＝[u
t
，g
t
·
v
t
]其中，maxpooling()表示最大池化操作；g
t
表示门控系数，用来控制引入深度特征信息的比例，W1与W2均为门控单元的权重参数；[]表示向量拼接操作，f
t
表示第t帧融合特征。4.根据权利要求1所述的一种语音文档分类方法，其特征在于，所述通过分类层对融合特征编码结果进行处理，获得语音文档分类结果包括：将融合特征编码结果，依次通过最大池化层、全连接层与softmax输出层，获得语音文档分类结果。5.一种语音文档分类系统，其特征在于，包括：模型训练与深度特征提取单元，用于使用LSTM训练基于CTC的声学模型，训练后的模型称为LSTM
‑
CTC模型；对于输入的声学特征...

【专利技术属性】
技术研发人员：郭武，刘谭，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人