一种语音主题识别方法及系统技术方案

技术编号:19748236 阅读:29 留言:0更新日期:2018-12-12 05:15
本申请公开了一种语音主题识别方法及系统,方法包括:对待识别语音进行识别,得到与待识别语音对应的不同颗粒度的文本,将不同颗粒度的文本分别转换为特征向量,将不同颗粒度的特征向量分别输入卷积神经网络中,输出待识别语音的主题。本申请采用多个语音识别器得到多颗粒度的语音识别结果,并将多颗粒度的语音识别结果用来训练卷积神经网络,利用不同颗粒度单元的互补获得了稳健的主题表征,从而提升了主题识别的正确率。

【技术实现步骤摘要】
一种语音主题识别方法及系统
本申请属于语音处理
,尤其涉及一种语音主题识别方法及系统。
技术介绍
近年来,随着人工智能技术在生活中的广泛使用,在自然交互过程中对输入的语音识别出相应的主题,能够为后端特定的服务目标提供有效的支撑。目前,基于语音的主题识别基本上都是一种两步法,首先采用语音识别技术将一段语音转换为一篇文档,然后采用主流的基于文本的主题识别方法来识别语音的主题。语音识别技术是指将语音转换为文本的技术,大规模连续语音识别从上世纪80年代开始逐步成熟,目前已经进入商业应用,但是在电话信道、信噪比比较低以及小语种情况下,语音识别错误率较高,进而导致语音主题识别的正确率较低。因此,如何提高语音主题识别的准确率是一项亟待解决的问题。
技术实现思路
有鉴于此,本申请提供了一种语音主题识别方法,通过采用多颗粒度输入卷积神经网络的方式,提高了语音主题识别的准确率。本申请提供了一种语音主题识别方法,所述方法包括:对待识别语音进行识别,得到与所述待识别语音对应的不同颗粒度的文本;将所述不同颗粒度的文本分别转换为特征向量;将不同颗粒度的特征向量分别输入卷积神经网络中,输出所述待识别语音的主题。优选地,所述将不同颗粒度的特征向量分别输入卷积神经网络中,输出所述待识别语音的主题包括:将不同颗粒度的特征向量分别输入卷积神经网络进行训练,更新卷积神经网络模型参数;提取经过训练后的卷积神经网络模型池化层特征,得到语义描述矢量;将所述语义描述矢量作为层次化聚类算法的特征向量,输出所述待识别语音的主题。优选地,提取经过训练后的卷积神经网络模型池化层特征,得到语义描述矢量包括:分别提取不同颗粒度的特征向量分别输入卷积神经网络后,卷积神经网络模型池化层的特征;将提取的所有池化层的特征相加,得到语义描述矢量。优选地,所述对待识别语音进行识别,得到与所述待识别语音对应的不同颗粒度的文本包括:采用隐马尔可夫语音识别器对待识别语音进行识别,得到与所述待识别语音对应的以词为单元的文本;采用基于链接时序分类准则的端到端语音识别器对待识别语音进行识别,得到与所述待识别语音对应的以字为单元的文本。一种语音主题识别系统,包括:识别模块,用于采用多种颗粒度的语音识别器对待识别语音进行识别,得到与所述待识别语音对应的不同颗粒度的文本;转换模块,用于将所述不同颗粒度的文本分别转换为特征向量;处理模块,用于将不同颗粒度的特征向量分别输入卷积神经网络中,输出所述待识别语音的主题。优选地,所述处理模块包括:训练单元,用于将不同颗粒度的特征向量分别输入卷积神经网络进行训练,更新卷积神经网络模型参数;提取单元,用于提取经过训练后的卷积神经网络模型池化层特征,得到语义描述矢量;输出单元,用于将所述语义描述矢量作为层次化聚类算法的特征向量,输出所述待识别语音的主题。优选地,所述提取单元具体用于:分别提取不同颗粒度的特征向量分别输入卷积神经网络后,卷积神经网络模型池化层的特征;将提取的所有池化层的特征相加,得到语义描述矢量。优选地,所述识别模块包括:隐马尔可夫语音识别器,用于对待识别语音进行识别,得到与所述待识别语音对应的以词为单元的文本;基于链接时序分类准则的端到端语音识别器,用于对待识别语音进行识别,得到与所述待识别语音对应的以字为单元的文本。综上所述,本申请公开了一种语音主题识别方法,当需要对语音的主题进行识别时,首先对待识别语音进行识别,得到与待识别语音对应的不同颗粒度的文本,然后将不同颗粒度的文本分别转换为特征向量,将不同颗粒度的特征向量分别输入卷积神经网络中,输出待识别语音的主题。本申请通过采用多颗粒度输入卷积神经网络的方式,提高了语音主题识别的准确率。附图说明为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本申请公开的一种语音主题识别方法实施例1的方法流程图;图2为本申请公开的一种语音主题识别方法实施例2的方法流程图;图3为本申请公开的一种语音主题识别系统实施例1的结构示意图;图4为本申请公开的一种语音主题识别系统实施例2的结构示意图。具体实施方式在语音识别准确率不高的情况下,尤其是针对训练语料不足的小语种、低信噪比、电话信道情况下的连续语音识别,一般字词错误率都很高;识别错误必然导致在主题建模过程中出现歧义,从而影响主题识别的正确率。为了提升主题建模对识别错误的鲁棒性,本申请采用多个不同颗粒度的语音识别器的识别结果来进行主题识别;颗粒度粗的语音识别一般语义更丰富,但是对于集外词(outofvacabulary,OOV)识别效果较差,而集外词经常是一些语义丰富的人名、地名,对主题识别的准确率影响很大;颗粒度细的语音识别结果可以有效地补充这种不足。本申请在基于神经网络的框架下,在训练神经网络参数和提取文档主题表达矢量过程中,将多颗粒度的语音识别结果融合到一个神经网络中,提出了采用多颗粒度输入卷积神经网络的语音主题识别方法。下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。如图1所示,为本申请公开的一种语音主题识别方法实施例1的方法流程图,在融合多颗粒度输入卷积神经网络的语音主题识别方法中,主要包括多颗粒度语音识别阶段、神经网络模型参数训练阶段、文档语义矢量提取和主题识别阶段。在本实施例中,该方法可以包括以下步骤:S101、对待识别语音进行识别,得到与待识别语音对应的不同颗粒度的文本;对于一段语音,及待进行主题识别的语音,首先根据语音识别器中声学建模单元和语音模型单元的不同,采用多个不同颗粒度的语音识别器将语音转换为文本。例如,采用基于隐马尔可夫语音识别器和基于链接时序分类准则的端到端语音识别器将语音转化为文本。基于隐马尔可夫语音识别器采用的是目前语音识别的主流技术,隐马尔可夫声学模型采用的是绑定的三音子作为建模单元,本申请中采用长短时记忆单元来实现声学建模,另外采用3元以词做单元的语言模型来解码,识别出来是以词为单元的文本。端到端语音识别技术是近年来研究热点,链接时序分类直接采用字形作为声学建模单元,在解码时也直接采用3元以字做单元的语言模型,识别出来是以字为单元的文本,链接时序分类准则的端到端语音识别器能够识别一些隐马尔可夫语音识别器无法识别的人名、地名等集外词。由此可以看出,识别后的结果有以词为单元的识别结果,也有以字为单元的识别结果,以词为单元的结果语义更丰富,但是对于集外词无能为力,而以字为单元可以识别出一些集外词,因此这两种识别结果之间具有良好的互补性。将这两种识别结果同时用于主题建模,可以提升主题识别正确率。S102、将不同颗粒度的文本分别转换为特征向量;其次,识别后的文档采用卷积神经网络的方式进行主题建模,例如,有字、词两种颗粒度的识别结果,因此卷积神经网络结构需要支持两种完全不同的输入。另外,卷积神经网络的输入本文档来自技高网...

【技术保护点】
1.一种语音主题识别方法,其特征在于,所述方法包括:对待识别语音进行识别,得到与所述待识别语音对应的不同颗粒度的文本;将所述不同颗粒度的文本分别转换为特征向量;将不同颗粒度的特征向量分别输入卷积神经网络中,输出所述待识别语音的主题。

【技术特征摘要】
1.一种语音主题识别方法,其特征在于,所述方法包括:对待识别语音进行识别,得到与所述待识别语音对应的不同颗粒度的文本;将所述不同颗粒度的文本分别转换为特征向量;将不同颗粒度的特征向量分别输入卷积神经网络中,输出所述待识别语音的主题。2.根据权利要求1所述的方法,其特征在于,所述将不同颗粒度的特征向量分别输入卷积神经网络中,输出所述待识别语音的主题包括:将不同颗粒度的特征向量分别输入卷积神经网络进行训练,更新卷积神经网络模型参数;提取经过训练后的卷积神经网络模型池化层特征,得到语义描述矢量;将所述语义描述矢量作为层次化聚类算法的特征向量,输出所述待识别语音的主题。3.根据权利要求2所述的方法,其特征在于,提取经过训练后的卷积神经网络模型池化层特征,得到语义描述矢量包括:分别提取不同颗粒度的特征向量分别输入卷积神经网络后,卷积神经网络模型池化层的特征;将提取的所有池化层的特征相加,得到语义描述矢量。4.根据权利要求1所述的方法,其特征在于,所述对待识别语音进行识别,得到与所述待识别语音对应的不同颗粒度的文本包括:采用隐马尔可夫语音识别器对待识别语音进行识别,得到与所述待识别语音对应的以词为单元的文本;采用基于链接时序分类准则的端到端语音识别器对待识别语音进行识别,得到与所述待识别...

【专利技术属性】
技术研发人员:郭武孙健
申请(专利权)人:中国科学技术大学
类型:发明
国别省市:安徽,34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1