一种语音识别的文本分类方法和装置制造方法及图纸

技术编号:9568993 阅读:84 留言:0更新日期:2014-01-16 02:34
本发明专利技术公开了一种语音识别的文本分类方法和装置,其中,该方法包括:根据业务类别的类型,为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音;对训练语音进行解码,得到训练语音的词混淆网络;根据训练文本和词混淆网络,提取训练文本的文本特征;根据文本特征,训练集内支持向量机分类器;由经过训练的所述支持向量机分类器对文本进行分类。本发明专利技术的语音识别的文本分类方法和装置,将词图网络转化为适合于文本分类的词混淆网络,将词混淆网络所包含的混淆词转化为文本特征后,利用支持向量机算法,进行基于混淆词的文本分类,得到更准确的分类结果,提高了语音识别文本分类的正确率。

【技术实现步骤摘要】
一种语音识别的文本分类方法和装置
本专利技术涉及通信领域中语音识别
,具体地,涉及一种语音识别的文本分类方法和装置。
技术介绍
文本分类是指给定分类目标下,根据文本内容自动确定文本类别的过程。借助于文本分类技术,对文本进行分类,可以让机器理解人类语言,从而实现智能语音交互。文本分类技术已经在互联网搜索、语音识别等人机交互领域得到了相当广泛的应用。在自助语音识别服务系统中,利用文本分类技术对语音识别的文本结果进行分类,并根据最终类别的不同,自助语音服务系统向最终用户提供不同的自助语音服务,实现轻松自然的自助语音交互。如将自然语言“请帮我查询一下我的手机有无欠费”理解为语义“余额查询”,提供“余额查询”的自助服务。目前主流的文本分类使用统计学习的方法:首先通过提取文本中的特征,将文本转化为带权重分量的特征矢量,并利用机器学习的方法,构建文本分类模型。目前主要的文本分类学习算法包含Rocchio算法、朴素贝叶斯分类算法、决策树算法、神经网络算法及支持向量机算法(SVM,SupportVectorMachine)等等,并在相应的算法上进行一些改进及融合,使文本分类的准确率持续不断的提高。在申请号为99808930.3的中国专利文件中公开了一种根据文本信息对象训练集生成分类器之参数以便确认文本信息对象所属种类的方法。在申请号为200810012887.0的中国专利文件公开了一种利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面,从而得到最优的超平面的方法,实现较佳的文本分类效果。在自助语音服务系统中,文本分类需要与语音识别系统一起使用。传统的文本分类应用中,使用语音识别系统产生的第一优选(OneBest)结果作为文本分类器的输入,文本分类器根据分类模型计算输入文本Wi对每个目标分类类别Tj的得分贡献,并选取得分最高的类别作为该输入文本对应的分类结果,如图1-2所示。在图2中,用第一优先结果进行文本分类,最终最优分类类别GRPS的得分为0+0+0+0.3+0.8=1.1。这种方法在语音识别准确率较高的语音识别系统中,有优良的性能;但在语音识别引擎识别准确率较低的语音识别系统中,很可能输出包含较多错误的文本识别结果,这会直接导致文本分类的正确率的急剧下降。例如语音识别引擎因口音问题将识别出某段语音为:“我要用手机伤亡”,则SVM文本分类器得分如图3所示。因为错误识别结果“伤亡”对“GRPS”的贡献得分为0,造成“话费查询”与“GPRS”的最终得分均为0.3,造成分类错误。
技术实现思路
本专利技术是为了克服现有技术中语音识别的文本分类错误率高的缺陷,根据本专利技术的一个方面,提出一种语音识别的文本分类方法。根据本专利技术实施例的语音识别的文本分类方法,包括:根据业务类别的类型,为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音;对训练语音进行解码,得到训练语音的词混淆网络;根据训练文本和词混淆网络,提取训练文本的文本特征;根据文本特征,训练集内支持向量机分类器;由经过训练的所述支持向量机分类器对文本进行分类。本专利技术的语音识别的文本分类方法,在收集训练文本和训练语音后,在收集业务类别的训练文本和训练语音后,得到训练语音的词混淆网络,提取训练文本的文本特征,根据文本特征训练集内支持向量机分类器,由经过训练的所述支持向量机分类器对文本进行分类;本专利技术的语音识别的文本分类方法,通过语音识别所特有的词图网络,由于其对正确语音识别结果具有更高的覆盖度,将词图网络转化为适合于文本分类的词混淆网络,将词混淆网络所包含的混淆词转化为文本特征后,利用支持向量机算法,进行基于混淆词的文本分类,得到更准确的分类结果,提高了语音识别文本分类的正确率。本专利技术是为了克服现有技术中语音识别的文本分类错误率高的缺陷,根据本专利技术的另一个方面,提出一种语音识别的文本分类装置。根据本专利技术实施例的语音识别的文本分类装置,包括:文本收集模块,用于根据业务类别的类型,为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音;语音解码模块,用于对训练语音进行解码,得到训练语音的词混淆网络;特征提取模块,用于根据训练文本和词混淆网络,提取训练文本的文本特征;分类器训练模块,用于根据文本特征,训练集内支持向量机分类器;文本分类模块,用于由经过训练的支持向量机分类器对文本进行分类。本专利技术的语音识别的文本分类装置,在收集训练文本和训练语音后,在收集业务类别的训练文本和训练语音后,得到训练语音的词混淆网络,提取训练文本的文本特征,根据文本特征训练集内支持向量机分类器,由经过训练的所述支持向量机分类器对文本进行分类;本专利技术的语音识别的文本分类装置,通过语音识别所特有的词图网络,由于其对正确语音识别结果具有更高的覆盖度,将词图网络转化为适合于文本分类的词混淆网络,将词混淆网络所包含的混淆词转化为文本特征后,利用支持向量机算法,进行基于混淆词的文本分类,得到更准确的分类结果,提高了语音识别文本分类的正确率。本专利技术的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本专利技术而了解。本专利技术的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。下面通过附图和实施例,对本专利技术的技术方案做进一步的详细描述。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1为现有技术中传统的文本分类方法的流程示意图;图2为现有技术中利用第一优先结果进行文本分类的示意图;图3为现有技术中利用第一优先结果进行文本分类过程中因识别错误导致分类错误的示意图;图4为本专利技术语音识别系统的词混淆网络的结构示意图;图5为本专利技术使用词混淆网络进行文本分类的示意图;图6为本专利技术语音识别的文本分类方法实施例一的流程图;图7为本专利技术语音识别的文本分类方法实施例二中训练文本的结构示意图;图8为本专利技术语音识别的文本分类方法实施例二中使用语音识别引擎对收集的训练语音进行解码的结构示意图;图9为本专利技术语音识别的文本分类方法实施例二中混淆网络的结构示意图;图10为本专利技术语音识别的文本分类方法实施例二中文本特征的结构示意图;图11为本专利技术语音识别的文本分类方法实施例二中混淆网络的结构示意图;图12为本专利技术语音识别的文本分类装置的结构示意图。具体实施方式下面结合附图,对本专利技术的具体实施方式进行详细描述,但应当理解本专利技术的保护范围并不受具体实施方式的限制。本专利技术语音识别系统产生的词混淆网络(WordConfusionNetwork,WCN)作为文本分类器的输入,词混淆网络不仅包含了语音识别系统的第一优选结果,而且还包含了其它最可能的若干个识别结果,即混淆词,如图4所示。其中,文本分类器是支持向量机分类器(SupportVectorMachine,SVM)中的一种,SVM分类器是分类器的统称。文本分类器以词混淆网络作为输入,当一个词被语音识别系统识别为第一优选结果,则其所有的混淆词获得相应加分,并将整个词混淆网络输入到文本分类器,而不是只把第一优选结果作为输入,降低了文本分类器对语音识别系统识别结果的依赖性,从而增强了系统的容错性,在相同语音识别系统的基础上可获本文档来自技高网
...
一种语音识别的文本分类方法和装置

【技术保护点】
一种语音识别的文本分类方法,其特征在于,包括:根据业务类别的类型,为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音;对所述训练语音进行解码,得到所述训练语音的词混淆网络;根据所述训练文本和词混淆网络,提取训练文本的文本特征;根据所述文本特征,训练集内支持向量机分类器;由经过训练的所述支持向量机分类器对文本进行分类。

【技术特征摘要】
1.一种语音识别的文本分类方法,其特征在于,包括:根据业务类别的类型,为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音;对所述训练语音进行解码,得到所述训练语音的词混淆网络;根据所述训练文本和词混淆网络,提取训练文本的文本特征;根据所述文本特征,训练集内支持向量机分类器;由经过训练的所述支持向量机分类器对文本进行分类;所述词混淆网络包括生成文本和与所述生成文本中的词语对应的声学置信度;所述文本特征使用字的Four-gram表示,其中,Wi为当前字,Wi-2和Wi-1为所述字的前续,Wi+1为所述字的后续;对于训练文本,如果所述文本特征对应的N-gram出现,与该N-gram对应的文本特征的权重即为1,否则,该文本特征的权重为0;在所述训练语音的词混淆网络中,如果所述文本特征对应的N-gram出现,所述文本特征的权重为所述N-gram中所有字的声学置信度的积,否则,所述文本特征的权重为0;根据所述文本特征,训练集内支持向量机分类器包括:提取支持向量机分类器特征时,设置声学置信度门限,取词混淆网络中的所述字及所述字的N-gram,当N-gram出现时,如果所述N-gram包含一个以上的所述字,使用所述字的声学置信度的几何平均;所述声学置信度的计算公式如下:2.一种语音识别的文本分类装置,其特征...

【专利技术属性】
技术研发人员:万鹏梁政刘江鹿晓亮李钊辉刘庆峰
申请(专利权)人:中国移动通信集团安徽有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1