基于中英文混合词典的语音识别方法及装置制造方法及图纸

技术编号:16470448 阅读:85 留言:0更新日期:2017-10-28 21:11
本发明专利技术提出一种基于中英文混合词典的语音识别方法及装置,其中,方法包括:获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。

Speech recognition method and device based on Chinese English hybrid dictionary

The invention provides a English dictionary based on hybrid speech recognition method and device, wherein the method comprises the following steps: acquiring international phonogram IPA marked hybrid dictionary in English, in English hybrid dictionary includes: Chinese dictionary and Chinese English dictionary by modified English; will the Chinese mixed dictionary as a training dictionary with a convolution CNN neural network with five layers of time recurrent neural network LSTM model, with syllables or words as the goal, to the time the connectionist classifier CTC for training criterion for training the model, get the CTC acoustic model after training; speech recognition of English mixed language combined with CTC acoustic model after training. In this embodiment, by including English Chinese mixed dictionary dictionary and Chinese English Dictionary English after correction for training, which English word comprehensive coverage and recognition of Chinese English, using CTC acoustic model to further improve the English in hybrid speech recognition accuracy.

【技术实现步骤摘要】
基于中英文混合词典的语音识别方法及装置
本专利技术涉及语音识别
,尤其涉及一种基于中英文混合词典的语音识别方法及装置。
技术介绍
目前,随着生活的全球化,使用混合语言交流的现象已经成为一种普遍现象。据统计,讲多语言的人要多于讲单语言的人。混合语言之间的声学和语言之间的复杂性给语音识别带来挑战。因此,混合语言声学模型的研究是一个重要的研究方向。混合语音识别技术是指利用中英文混合词典,对混合语言声学模型进行训练,得到语音识别模型。目前,中英文混合词典的获取方式是,获取包括声韵母标注的音素集的中文词典,将一些英文按照声韵母标注的方式加入到中文词典中,形成中英文混合词典。其中,英文单词标注覆盖不全面,采用人工标注,费时费力。混合语言声学模型为深度神经网络(DeepNeuralNetworks,DNN)DNN,卷积神经网络(deepconvolutionalneuralnetworks,CNN),时间递归神经网络(LongShort-TermMemory,LSTM)声学模型等,准确度不够高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的第一个目的在于提出一种基于中英文混合词典的语音识别方法,用于解决现有技术中语音识别准确度低的问题。本专利技术的第二个目的在于提出一种基于中英文混合词典的语音识别装置。本专利技术的第三个目的在于提出另一种基于中英文混合词典的语音识别装置。本专利技术的第四个目的在于提出一种非临时性计算机可读存储介质。本专利技术的第五个目的在于提出一种计算机程序产品。为达上述目的,本专利技术第一方面实施例提出了一种基于中英文混合词典的语音识别方法,包括:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本专利技术实施例的基于中英文混合词典的语音识别方法,通过获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。为达上述目的,本专利技术第二方面实施例提出了一种基于中英文混合词典的语音识别装置,包括:获取模块,用于获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;训练模块,用于将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;语音识别模块,用于结合训练后的CTC声学模型对中英文混合语言进行语音识别。本专利技术实施例的基于中英文混合词典的语音识别装置,通过获取国际音标IPA标注的中英文混合词典,中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本实施例中,采用包括中文词典和经过中式英语修正的英文词典的中英文混合词典进行训练,其中英文单词覆盖全面且能识别中式英文,结合CTC声学模型的使用进一步提高了中英文混合语言识别的准确度。为达上述目的,本专利技术第三方面实施例提出了另一种基于中英文混合词典的语音识别装置,包括:处理器;用于存储所述处理器可执行指令的存储器;其中,所述处理器被配置为:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。为了实现上述目的,本专利技术第四方面实施例提出了一种非临时性计算机可读存储介质,当所述存储介质中的指令由服务器端的处理器被执行时,使得服务器端能够执行一种基于中英文混合词典的语音识别方法,所述方法包括:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。为了实现上述目的,本专利技术第五方面实施例提出了一种计算机程序产品,当所述计算机程序产品中的指令处理器执行时,执行一种基于中英文混合词典的语音识别方法,所述方法包括:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术实施例提供的一种基于中英文混合词典的语音识别方法的流程示意图;图2为本专利技术实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图;图3为本专利技术实施例提供的另一种基于中英文混合词典的语音识别方法的流程示意图;图4为本专利技术实施例提供的一种基于中英文混合词典的语音识别装置的结构示意图;图5为本专利技术实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图;图6为本专利技术实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图;图7为本专利技术实施例提供的另一种基于中英文混合词典的语音识别装置的结构示意图。具体实施方式下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。下面参考附图描述本专利技术实施例的本文档来自技高网...
基于中英文混合词典的语音识别方法及装置

【技术保护点】
一种基于中英文混合词典的语音识别方法,其特征在于,包括:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。

【技术特征摘要】
1.一种基于中英文混合词典的语音识别方法,其特征在于,包括:获取国际音标IPA标注的中英文混合词典,所述中英文混合词典包括:中文词典和经过中式英语修正的英文词典;将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型;结合训练后的CTC声学模型对中英文混合语言进行语音识别。2.根据权利要求1所述的方法,其特征在于,所述获取国际音标IPA标注的中英文混合词典,包括:获取国际音标IPA标注的中文词典以及IPA标注的英文词典;获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;获取所述中式英语句子中的英文单词以及英文单词对应的中式发音;将所述英文单词以及英文单词对应的中式发音添加到所述英文词典中,得到经过中式英语修正的英文词典。3.根据权利要求1所述的方法,其特征在于,所述获取国际音标IPA标注的中英文混合词典,包括:获取国际音标IPA标注的中文词典以及IPA标注的英文词典;获取音频训练数据,所述音频训练数据中包括:多个中式英语句子;结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。4.根据权利要求3所述的方法,其特征在于,所述结合IPA标注的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音,包括:结合IPA标注的英文词典对所述中式英语句子进行音素解码,找到解码中的最优路径,获取所述中式英语句子中音素对应的帧位置;获取所述中式英语句子对应的对齐文件,所述对齐文件中包括:中式英语句子中每个音素的位置,以及英文单词所对应的音素;结合所述对齐文件以及所述中式英语句子中音素对应的帧位置,确定所述中式英语句子中每个英文单词的位置,进行切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音。5.根据权利要求3或4所述的方法,其特征在于,结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典之前,还包括:针对所述中式英语句子中的每个英文单词,获取所述英文单词中每个音素的词频;获取对应的词频大于预设词频的高频音素以及包括所述高频音素的高频英文单词;结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典,包括:结合所述中式英语句子中的高频英文单词、高频英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典。6.根据权利要求3所述的方法,其特征在于,所述结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及IPA标注的英文词典,生成经过中式英语修正的英文词典之后,还包括:结合经过中式英语修正的英文词典对所述中式英语句子进行音素解码以及对齐文件切分,得到所述中式英语句子中的英文单词以及英文单词对应的中式发音;结合所述中式英语句子中的英文单词、英文单词对应的中式发音以及经过中式英语修正的英文词典,更新所述经过中式英语修正的英文词典。7.根据权利要求1所述的方法,其特征在于,所述将所述中英文混合词典作为训练词典,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述模型进行训练,得到训练后的CTC声学模型,包括:采用滤波器组FBANK提取中式英语句子中的特征点,以一层卷积神经网络CNN加上五层时间递归神经网络LSTM为模型,以中式英语句子对应的对齐文件为目标,以交叉熵CE为训练准则,对所述模型进行训练,得到初始模型;将所述中英文混合词典作为训练词典,以所述初始模型为模型,以音节或词为目标,以联结主义时间分类器CTC为训练准则对所述初始模型进行训练,得到训练后的CTC声学模型。8.一种基于中英文混合词典的语音识别装...

【专利技术属性】
技术研发人员:李先刚张雪薇
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1