一种语音识别方法、装置、终端及系统制造方法及图纸

技术编号：16271409 阅读：77 留言：0更新日期：2017-09-22 22:58

本申请实施例中提供了一种语音识别方法、装置、终端及系统，该方法包括：接收待识别语音；对待识别语音进行特征提取，得到特征信息；将特征信息输入加权有限状态转换器WFST进行识别，其中，该WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，该声学模型中的各第一语种音素与第二语种音素存在对应关系，该发音词典中的各第一语种词语由第二语种音素注音。采用本申请中的方案，能够提升语音识别准确率。

Speech recognition method, device, terminal and system

The embodiment of the application provides a speech recognition method, device, terminal and system, the method comprises: receiving the speech to be recognized; to recognize the speech feature extraction, feature information; the characteristic information of the input weighted finite state transducer WFST identification, among them, the WFST is obtained by the previously created acoustic model. Pronunciation dictionary and language model combination, there is a corresponding relationship between the acoustic model of the first language and second language phoneme phoneme, the pronunciation dictionary in the first language words from second phonemes phonetic languages. The accuracy of speech recognition can be improved by adopting the scheme in this application.

全部详细技术资料下载

【技术实现步骤摘要】
一种语音识别方法、装置、终端及系统
本申请涉及语音识别技术，特别涉及一种语音识别方法、装置、终端及系统。
技术介绍
语音识别是指一种从语音波形中识别出对应的文字内容的技术，是人工智能领域的重要技术之一。目前的语音识别方法一般包括三部分：声学模型、发音字典以及语言模型。其中声学模型通过深度神经网络训练，语言模型一般是统计语言模型，而发音字典记录了词与音素之间的对应关系，是连接声学模型和语言模型的纽带。针对多个语种混杂的语音，现有技术中的语音识别方法在进行声学模型训练时，直接将多个语种的音素均输入深度神经网络进行训练，且在发音词典中分别利用各语种的音素对各语种的词语注音。现有的通用语音识别方法在应用于多个语种混杂的语音识别场景时，识别准确率低。
技术实现思路
本申请实施例中提供了一种语音识别方法、装置、终端及系统，用于解决现有技术中的语音识别方法应用于多个语种混杂的语音识别场景时，识别准确率低的问题。根据本申请的第一个方面，提供了一种语音识别方法，包括：接收待识别语音；对待识别语音进行特征提取，得到特征信息；将特征信息输入加权有限状态转换器WFST进行识别，其中，该WFS...
一种语音识别方法、装置、终端及系统

【技术保护点】
一种语音识别方法，其特征在于，包括：接收待识别语音；对所述待识别语音进行特征提取，得到特征信息；将所述特征信息输入加权有限状态转换器WFST进行识别，其中，所述WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，所述声学模型中的各第一语种音素与第二语种音素存在对应关系，所述发音词典中的各第一语种词语由第二语种音素注音。

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：接收待识别语音；对所述待识别语音进行特征提取，得到特征信息；将所述特征信息输入加权有限状态转换器WFST进行识别，其中，所述WFST是由预先创建的声学模型、发音词典、语言模型组合得到的，所述声学模型中的各第一语种音素与第二语种音素存在对应关系，所述发音词典中的各第一语种词语由第二语种音素注音。2.根据权利要求1所述的方法，其特征在于，预先创建声学模型，具体包括：确定第一语种和第二语种的各个音素；根据第一语种与第二语种的发音，确定与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素；将各第二语种音素、与各第一语种音素分别对应的一个第二语种音素或多个第二语种音素作为待匹配音素，并进行深度神经网络模型训练，得到所述声学模型。3.根据权利要求1所述的方法，其特征在于，预先创建所述发音词典，具体包括：通过爬虫算法在互联网上爬取语料，所述语料包括物品名称；如果所述语料为第二语种词语，则通过第二语种音素对所述语料注音；如果所述语料为第一语种词语，则提取组成所述第一语种词语的第一语种音素；根据各第一语种音素与一个第二语种音素或多个第二语种音素的对应关系，确定组成所述第一语种词语的一个或多个第一语种音素对应的一个或多个第二语种音素；并利用所述对应的一个或多个第二语种音素对所述第一语种词语注音。4.根据权利要求1所述的方法，其特征在于，预先创建语言模型，具体包括：获取互联网上爬取的语料，并确定物品语料和用户输入语料；将互联网上爬取的语料、物品语料、用户输入语料作为待匹配词语，并进行N-gram模型训练，得到所述语言模型。5.根据权利要求4所述的方法，其特征在于，确定物品语料，具体包括：获取购物平台展示的物品品牌和物品类别信息；根据所述物品品牌和物品类别信息，确定物品语料。6.根据权利要求5所述的方法，其特征在于，根据所述物品品牌和物品类别信息，确定物品语料，具体包括：将各物品品牌和物品类别信息分别组合，得到物品语料。7.根据权利要求4所述的方法，其特征在于，确定用户输入语料，具体包括：获取用户在购物平台输入的查询语句；将所述查询语句，作为用户输入语料。8.根据权利要求1所述的方法，其特征在于，在将特征信息输入加权有限状态转换器WFST进行识别之前，还包括：将所述声学模型、发音词典、语言模型组合得到所述WFST模型。9.根据权利要求8所述的方法，其特征在于，将所述声学模型、发音词典、语言模型组合得到所述WFST模型具体包括：将所述语言模型分割为多个子语言模型；分别生成多个子语言模型的WFST网络；将所述多个子语言模型的WFST网络分别与所述声学模型的WFST网络、发音词典的WFST网络组合得到多个子WFST模型；将所述多个子WFST模型合并，得到所述WFST模型。10.根据权利要求1所述的方法，其特征在于，在接收待识别语音之前，还包括：提示用户输入语音。11.根据权利要求10所述的方法，其特征在于，提示用户输入语音，具体包括：显示语音输入标志。12.根据权利要求11所述的方法，其特征在于，在显示语音输入标志之后，接收待识别语音之前，还包括：接收用户对所述语音输入标志的操作，所述操作包括持续按压所述语音输入标志超过预定时长，或者点击所述语音输入标志。13.根据权利要求11所述的方法，其特征在于，在接收用户对所述语音输入标志的操作之后，还包括：显示语音输入界面。14.根据权利要求1所述的方法，其特征在于，在将所述特征信息输入加权有限状态转换器WFST进行识别之后，还包括：显示识别结果。15.根据权利要求1所述的方法，其特征在于，所述第一语种包括一个或多个语种，所述第二语种包括一个语种。16.根据权利要求1所述的方法，其特征在于，所述第一语种包括英文，所述第二语种包括中文。17.一种语音识别装置，其特征在于，包括：接收模块，用于接收待识别语音；特征提取模块，用于对所述待识别语音进行特征提取，得到特征信息；识别模块，用于将所述特征信息输入加权有限状态转换器WFST进行识别，其中，所述WFST是由预先...

【专利技术属性】
技术研发人员：李宏言，李晓辉，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛,KY

全部详细技术资料下载我是这个专利的主人