语音文档分类方法、系统、设备及存储介质技术方案

技术编号:32490963 阅读:17 留言:0更新日期:2022-03-02 09:57
本发明专利技术公开了一种语音文档分类方法、系统、设备及存储介质,通过融合声学特征和深度特征实现语音文档分类,采用训练好的用于语音识别的声学模型为每个语音文档提取包含语义信息的深度特征,然后将语音文档的底层的声学特征和提取的深度特征通过门控机制逐帧进行融合,融合后的特征用于语音文档分类,本发明专利技术充分利用语音声学和语义信息之间的互补性,融合后的特征具有更强的文档区分性能,从而提升语音文档分类效果;此外,语音文档分类时,无需进行语音识别,直接获得语音文档分类结果,相当于一种端到端的结构,简化了中间的流程,加快了分类速度。快了分类速度。快了分类速度。

【技术实现步骤摘要】
语音文档分类方法、系统、设备及存储介质


[0001]本专利技术涉及语音信号处理领域,尤其涉及一种语音文档分类方法、系统、设备及存储介质。

技术介绍

[0002]传统的语音文档分类系统通常由语音识别(automatic speech recognition,ASR)模块和文本文档分类(textual document classification,TDC)模块组成。ASR模块首先将语音识别为文本,TDC模块再根据识别文本的内容进行主题分类。近几年来,ASR和TDC技术都已经取得了很大的进展。
[0003]对于ASR,目前主流的系统有两种,一种是基于HMM的语音识别系统,另一种则是端到端语音识别系统。基于HMM的语音识别系统一般由声学模型,语言模型,发音词典等多个部分组成,训练过程复杂。端到端语音识别系统直接将输入的语音特征序列转化成文本,相比于基于HMM的语音识别系统,其结构更加简单,并且准确率可以达到甚至超越基于HMM的语音识别系统。基于链接时序分类(Connectionist Temporal Classification,CTC)的语音识别系统就是一种典型的端到端结构(Alex Graves,Santiago Fernandez,Faustino Gomez,and Jurgen Schmidhuber,“Connectionist temporal classi

fication:labelling unsegmented sequence data with recurrent neural networks,”in Proceedings of the 23rd international conference on Machine learning,2006,pp.369

376.)。
[0004]对于TDC而言,关键技术就是如何准确地构建文本文档的表示向量。目前常用的构建文档表示向量的方法有PLSA(probabilistic latent semantic analysis,概率潜在语义分析)和LDA(latent Dirichlet allocation),以上两项方案依次对应于文献1(Thomas Hofmann,“Unsupervised learning by probabilistic latent semantic analysis,”Machine learning,vol.42,no.1

2,pp.177

196,2001.)、文献2(David M Blei,Andrew Y Ng,and Michael I Jordan,“Latent dirichlet allocation,”Journal of machine Learning research,vol.3,no.Jan,pp.993

1022,2003.)。在获得文档表示向量后,便可以使用分类器(例如SVM等)对这些表示向量进行分类。此外,鉴于神经网络(Neural Network,NN)在许多任务上都取得了令人满意的效果,一些基于神经网络的文本分类方法也已经被提出。Yoon Kim(Yoon Kim,“Convolutional neural networks for sentenceclassification,”arXiv preprint arXiv:1408.5882,2014.)提出将CNN(Convolutional Neural Networks,卷积神经网络)用于文本分类,CNN能够捕获相邻词的语义特征,通过多个不同尺度的滤波器来提取不同层面的语义信息。此外,Zichao Yang(Zichao Yang,Diyi Yang,Chris Dyer,Xiaodong He,Alex Smola,and Eduard Hovy,“Hierarchical attentionnetworks for document classification,”in Proceedings of the 2016conference of the North American chapter of the association for computational linguistics:human language technologies,2016,pp.1480

1489.)根据
文档的结构信息,采用层级注意力网络(hierarchical attention network,HAN)依次构建句子的表示向量和文档的表示向量,进一步提高了文档分类的准确率。
[0005]显而易见,在这种串联型结构的语音文档分类系统中,语音识别错误会降低系统的准确率,尤其是在嘈杂环境中,由于噪声和回响的干扰,语音识别错误率会明显增加。为了降低识别错误带来的影响,Gogate(Gogate,Mandar,Ahsan Adeel,and Amir Hussain."Deep learning driven multimodal fusion for automated deception detection."2017IEEE Symposium Series on Computational Intelligence(SSCI).IEEE,2017.)提出将语音和识别的文本进行融合,利用语音信息改善识别错误带来的影响。Gogate使用CNN分别提取语音信息和文本信息用于构建语音表示向量和文本表示向量,然后将这两种表示向量拼接用于情感分类。和Gogate提出的技术相似,Gu Yue(Gu Yue,et al."Hybrid attention based multimodal network for spoken language classification."Proceedings of the conference.Association for Computational Linguistics.Meeting.Vol.2018.NIH Public Access,2018.)采用LSTM(Long Short

Term Memory,长短期记忆网络)网络分别构建语音表示向量和文本表示向量,然后通过注意力机制将这两种表示向量融合,用于口语语言分类。尽管将语音和识别文本融合后,系统的性能有所提高,但是由于语音信息和文本信息只在表示向量层面进行融合,语音和文本的互补性没有被充分利用,因此,分类效果还有待于提升。

技术实现思路

[0006]本专利技术的目的是提供一种语音文档分类方法、系统、设备及存储介质,能够准确的实现语音文档分类,并加快了分类速度。
[0007]本专利技术的目的是通过以下技术方案实现的:
[0008]一种语音文档分类方法,包括:
[0009]使用LSTM训练基于CTC的声学模型,训练后的模型称为LSTM

CTC模型,对于输入的声学特征序列本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音文档分类方法,其特征在于,包括:使用LSTM训练基于CTC的声学模型,训练后的模型称为LSTM

CTC模型,对于输入的声学特征序列,通过所述LSTM

CTC模型提取相应的深度特征序列;通过声学特征编码器、深度特征编码器各自对所述声学特征序列、深度特征序列进行编码;通过门控单元将声学特征编码器与深度特征编码器的输出进行融合,获得融合特征;通过融合特征编码器对所述融合特征进行编码;通过分类层对融合特征编码结果进行处理,获得语音文档分类结果。2.根据权利要求1所述的一种语音文档分类方法,其特征在于,对于输入的声学特征序列,通过所述LSTM

CTC模型提取相应的深度特征序列包括:将输入的声学特征序列表示为:x={x1,x2,

x
T
},其中,x
t
表示第t帧声学特征,t=1,2,...,T,T表示总帧数;将声学特征序列通过所述LSTM

CTC模型中的LSTM网络,获得的隐状态序列作为深度特征序列,表示为:h={h1,h2,

h
T
},h
t
表示第t帧深度特征。3.根据权利要求1所述的一种语音文档分类方法,其特征在于,所述通过门控单元将声学特征编码器与深度特征编码器的输出进行融合,获得融合特征包括:将声学特征编码器的输出记为u={u1,u2,

u
T
},将深度特征编码器的输出记为v={v1,v2,

v
T
},其中,u
t
、v
t
各自表示对第t帧声学特征、第t帧深度特征的编码结果,t=1,2,...,T,T表示总帧数;对深度特征编码器的输出进行最大池化操作,计算门控系数,再基于门控系数融合声学特征编码器与深度特征编码器的输出,表示为:v
max
=maxpooling(v)g
t
=sigmoid(W1v
t
+W2v
max
)f
t
=[u
t
,g
t
·
v
t
]其中,maxpooling()表示最大池化操作;g
t
表示门控系数,用来控制引入深度特征信息的比例,W1与W2均为门控单元的权重参数;[]表示向量拼接操作,f
t
表示第t帧融合特征。4.根据权利要求1所述的一种语音文档分类方法,其特征在于,所述通过分类层对融合特征编码结果进行处理,获得语音文档分类结果包括:将融合特征编码结果,依次通过最大池化层、全连接层与softmax输出层,获得语音文档分类结果。5.一种语音文档分类系统,其特征在于,包括:模型训练与深度特征提取单元,用于使用LSTM训练基于CTC的声学模型,训练后的模型称为LSTM

CTC模型;对于输入的声学特征...

【专利技术属性】
技术研发人员:郭武刘谭
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1