区分地域性口音的语音数据识别方法和装置制造方法及图纸

技术编号：9841102 阅读：263 留言：0更新日期：2014-04-02 04:14

本发明专利技术公开了一种区分地域性口音的语音数据识别方法和装置。所述区分地域性口音的语音数据识别方法包括：计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据；根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。本发明专利技术公开的区分地域性口音的语音数据识别方法和装置通过计算语音数据的置信度和信噪比将地域性语音数据自动的从海量的语音数据中识别出来，避免了对语音数据进行人工标注，提高了语音数据处理的效率。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种区分地域性口音的语音数据识别方法和装置。所述区分地域性口音的语音数据识别方法包括：计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据；根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。本专利技术公开的区分地域性口音的语音数据识别方法和装置通过计算语音数据的置信度和信噪比将地域性语音数据自动的从海量的语音数据中识别出来，避免了对语音数据进行人工标注，提高了语音数据处理的效率。【专利说明】区分地域性口音的语音数据识别方法和装置
本专利技术涉及语音数据处理
，尤其涉及一种区分地域性口音的语音数据识别方法和装置。
技术介绍
我国幅员辽阔，这使得汉语中包含地域性口音的方言的种类众多。来自不同地方的方言在发音特点，语速特点上各不相同。所以，采用相同的声学模型对不同地方的方言进行语音识别时，会出现识别准确率不高的现象。为了解决采用统一的适用于汉语普通话的声学模型对不同地方方言进行语音识别时识别准确率不高的问题，针对不同地方的方言分别训练为各种方言定制的声学模型是一种很好的途径。训练声学模型需要海量的训练数据。目前，随着微信、米聊等即时通讯工具的流行，互联网上存储有大量的原始语音数据。这些语音数据可以作为训练针对不同地方方言的声学模型的训练数据。但是，现有技术中，没有从这些语音数据中区分哪些是普通话的语音数据，哪些是地域性语音数据的自动化方法，使得要使用原始语音数据训练针对地方方言的声学模型之前，首先需要对这些原始语音数据人工标注出地域标签，这会耗费大...

【技术保护点】
一种区分地域性口音的语音数据识别方法，其特征在于，包括：计算语音数据的语音识别置信度和/或信噪比，并根据语音识别置信度和/或信噪比从语音数据中筛选出地域性语音数据；根据所述地域性语音数据的地域属性确定所述地域性语音数据的所属地域。

【技术特征摘要】

【专利技术属性】
技术研发人员：苏丹，尹钊，
申请(专利权)人：百度在线网络技术北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人