一种语音识别的文本分类方法和装置制造方法及图纸

技术编号：9568993 阅读：84 留言：0更新日期：2014-01-16 02:34

本发明专利技术公开了一种语音识别的文本分类方法和装置，其中，该方法包括：根据业务类别的类型，为每个业务类别收集训练文本和与训练文本的内容保持一致的训练语音；对训练语音进行解码，得到训练语音的词混淆网络；根据训练文本和词混淆网络，提取训练文本的文本特征；根据文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。本发明专利技术的语音识别的文本分类方法和装置，将词图网络转化为适合于文本分类的词混淆网络，将词混淆网络所包含的混淆词转化为文本特征后，利用支持向量机算法，进行基于混淆词的文本分类，得到更准确的分类结果，提高了语音识别文本分类的正确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别的文本分类方法和装置
本专利技术涉及通信领域中语音识别
，具体地，涉及一种语音识别的文本分类方法和装置。
技术介绍
文本分类是指给定分类目标下，根据文本内容自动确定文本类别的过程。借助于文本分类技术，对文本进行分类，可以让机器理解人类语言，从而实现智能语音交互。文本分类技术已经在互联网搜索、语音识别等人机交互领域得到了相当广泛的应用。在自助语音识别服务系统中，利用文本分类技术对语音识别的文本结果进行分类，并根据最终类别的不同，自助语音服务系统向最终用户提供不同的自助语音服务，实现轻松自然的自助语音交互。如将自然语言“请帮我查询一下我的手机有无欠费”理解为语义“余额查询”，提供“余额查询”的自助服务。目前主流的文本分类使用统计学习的方法：首先通过提取文本中的特征，将文本转化为带权重分量的特征矢量，并利用机器学习的方法，构建文本分类模型。目前主要的文本分类学习算法包含Rocchio算法、朴素贝叶斯分类算法、决策树算法、神经网络算法及支持向量机算法（SVM,SupportVectorMachine）等等，并在相应的算法上进行一些改进及融合，使文本分类的准确率持续不断的提高。在申请号为99808930.3的中国专利文件中公开了一种根据文本信息对象训练集生成分类器之参数以便确认文本信息对象所属种类的方法。在申请号为200810012887.0的中国专利文件公开了一种利用最小二乘方法来拟合用支持向量机方法所得到的分类超平面，从而得到最优的超平面的方法，实现较佳的文本分类效果。在自助语音服务系统中，文本分类需要与语音识别系统一起使用。传统的文本分类应用...
一种语音识别的文本分类方法和装置

【技术保护点】
一种语音识别的文本分类方法，其特征在于，包括：根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；对所述训练语音进行解码，得到所述训练语音的词混淆网络；根据所述训练文本和词混淆网络，提取训练文本的文本特征；根据所述文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类。

【技术特征摘要】
1.一种语音识别的文本分类方法，其特征在于，包括：根据业务类别的类型，为每个业务类别收集训练文本和与所述训练文本的内容保持一致的训练语音；对所述训练语音进行解码，得到所述训练语音的词混淆网络；根据所述训练文本和词混淆网络，提取训练文本的文本特征；根据所述文本特征，训练集内支持向量机分类器；由经过训练的所述支持向量机分类器对文本进行分类；所述词混淆网络包括生成文本和与所述生成文本中的词语对应的声学置信度；所述文本特征使用字的Four-gram表示，其中，Wi为当前字，Wi-2和Wi-1为所述字的前续，Wi+1为所述字的后续；对于训练文本，如果所述文本特征对应的N-gram出现，与该N-gram对应的文本特征的权重即为1，否则，该文本特征的权重为0；在所述训练语音的词混淆网络中，如果所述文本特征对应的N-gram出现，所述文本特征的权重为所述N-gram中所有字的声学置信度的积，否则，所述文本特征的权重为0；根据所述文本特征，训练集内支持向量机分类器包括：提取支持向量机分类器特征时，设置声学置信度门限，取词混淆网络中的所述字及所述字的N-gram，当N-gram出现时，如果所述N-gram包含一个以上的所述字，使用所述字的声学置信度的几何平均；所述声学置信度的计算公式如下：2.一种语音识别的文本分类装置，其特征...

【专利技术属性】
技术研发人员：万鹏，梁政，刘江，鹿晓亮，李钊辉，刘庆峰，
申请(专利权)人：中国移动通信集团安徽有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人