一种语音主题识别方法及系统技术方案

技术编号：19748236 阅读：29 留言：0更新日期：2018-12-12 05:15

本申请公开了一种语音主题识别方法及系统，方法包括：对待识别语音进行识别，得到与待识别语音对应的不同颗粒度的文本，将不同颗粒度的文本分别转换为特征向量，将不同颗粒度的特征向量分别输入卷积神经网络中，输出待识别语音的主题。本申请采用多个语音识别器得到多颗粒度的语音识别结果，并将多颗粒度的语音识别结果用来训练卷积神经网络，利用不同颗粒度单元的互补获得了稳健的主题表征，从而提升了主题识别的正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音主题识别方法及系统
本申请属于语音处理
，尤其涉及一种语音主题识别方法及系统。
技术介绍
近年来，随着人工智能技术在生活中的广泛使用，在自然交互过程中对输入的语音识别出相应的主题，能够为后端特定的服务目标提供有效的支撑。目前，基于语音的主题识别基本上都是一种两步法，首先采用语音识别技术将一段语音转换为一篇文档，然后采用主流的基于文本的主题识别方法来识别语音的主题。语音识别技术是指将语音转换为文本的技术，大规模连续语音识别从上世纪80年代开始逐步成熟，目前已经进入商业应用，但是在电话信道、信噪比比较低以及小语种情况下，语音识别错误率较高，进而导致语音主题识别的正确率较低。因此，如何提高语音主题识别的准确率是一项亟待解决的问题。
技术实现思路
有鉴于此，本申请提供了一种语音主题识别方法，通过采用多颗粒度输入卷积神经网络的方式，提高了语音主题识别的准确率。本申请提供了一种语音主题识别方法，所述方法包括：对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本；将所述不同颗粒度的文本分别转换为特征向量；将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题。优选地，所述将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题包括：将不同颗粒度的特征向量分别输入卷积神经网络进行训练，更新卷积神经网络模型参数；提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量；将所述语义描述矢量作为层次化聚类算法的特征向量，输出所述待识别语音的主题。优选地，提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量包括：分别...

【技术保护点】
1.一种语音主题识别方法，其特征在于，所述方法包括：对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本；将所述不同颗粒度的文本分别转换为特征向量；将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题。

【技术特征摘要】
1.一种语音主题识别方法，其特征在于，所述方法包括：对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本；将所述不同颗粒度的文本分别转换为特征向量；将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题。2.根据权利要求1所述的方法，其特征在于，所述将不同颗粒度的特征向量分别输入卷积神经网络中，输出所述待识别语音的主题包括：将不同颗粒度的特征向量分别输入卷积神经网络进行训练，更新卷积神经网络模型参数；提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量；将所述语义描述矢量作为层次化聚类算法的特征向量，输出所述待识别语音的主题。3.根据权利要求2所述的方法，其特征在于，提取经过训练后的卷积神经网络模型池化层特征，得到语义描述矢量包括：分别提取不同颗粒度的特征向量分别输入卷积神经网络后，卷积神经网络模型池化层的特征；将提取的所有池化层的特征相加，得到语义描述矢量。4.根据权利要求1所述的方法，其特征在于，所述对待识别语音进行识别，得到与所述待识别语音对应的不同颗粒度的文本包括：采用隐马尔可夫语音识别器对待识别语音进行识别，得到与所述待识别语音对应的以词为单元的文本；采用基于链接时序分类准则的端到端语音识别器对待识别语音进行识别，得到与所述待识别...

【专利技术属性】
技术研发人员：郭武，孙健，
申请(专利权)人：中国科学技术大学，
类型：发明
国别省市：安徽,34

全部详细技术资料下载我是这个专利的主人