语音识别方法和装置制造方法及图纸

技术编号:10193855 阅读:210 留言:0更新日期:2014-07-10 00:38
本发明专利技术提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。

【技术实现步骤摘要】
【专利摘要】本专利技术提出一种语音识别方法和装置,该语音识别方法包括采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。该方法能够不依赖网络实现语音识别。【专利说明】语音识别方法和装置
本专利技术涉及智能处理
,尤其涉及一种语音识别方法和装置。
技术介绍
语音识别是信息
重要的技术之一,语音识别的目标是使机器听懂人的自然语言,由识别后的语音作为控制信号可以应用在不同的领域。目前,语音识别通常采用在线方式,用户输入的语音信息由网络传入云端,经云端的服务器进行识别并将结果传回给用户。但是,这种在线方式需要依赖网络。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本专利技术的一个目的在于提出一种语音识别方法,该方法可以不依赖网络实现语音识别。本专利技术的另一个目的在于提出一种语音识别装置。为达到上述目的,本专利技术第一方面实施例提出的语音识别方法,包括:采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。本专利技术第一方面实施例提出的语音识别方法,通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。为达到上述目的,本专利技术第二方面实施例提出的语音识别装置,包括:采集模块,用于采集用户输入的语音信息;提取模块,用于对所述语音信息进行特征提取,得到特征信息;解码模块,用于根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。本专利技术第二方面实施例提出的语音识别装置,通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。为达到上述目的,本专利技术第三方面实施例提出的移动设备,包括:壳体、处理器、存储器、电路板和电源电路,其中,电路板安置在壳体围成的空间内部,处理器和存储器设置在电路板上;电源电路,用于为移动设备的各个电路或器件供电;存储器用于存储可执行程序代码;处理器通过读取存储器中存储的可执行程序代码来运行与可执行程序代码对应的程序,以用于执行以下步骤:采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。本专利技术第三方面实施例提出的移动设备,通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。【专利附图】【附图说明】本专利技术上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:图1为本专利技术一实施例提出的语音识别方法的流程示意图;图2为本专利技术实施例中离线方式的语音识别的流程示意图;图3为本专利技术另一实施例提出的语音识别方法的流程示意图;图4为本专利技术实施例中过滤特征信息的示意图;图5为本专利技术实施例中利用声学模型进行处理的流程示意图;图6为本专利技术另一实施例提出的语音识别装置的结构示意图;图7为本专利技术另一实施例提出的语音识别装置的结构示意图。【具体实施方式】下面详细描述本专利技术的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利技术,而不能理解为对本专利技术的限制。相反,本专利技术的实施例包括落入所附加权利要求书的精神和内涵范围内的所有变化、修改和等同物。图1为本专利技术一实施例提出的语音识别方法的流程示意图,该方法包括:Sll:移动设备采集用户输入的语音信息;其中,移动设备可以为手机、平板电脑等。相关技术中,移动设备接收到用户输入的语音信息后,会通过网络发送给云端的服务器,由服务器进行识别并返回识别结果。而本实施例中,为了避免语音识别受限于网络,可以由移动设备自身完成语音识另IJ,实现离线方式的语音识别。S12:移动设备对用户输入的语音信息进行特征提取,得到特征信息。其中,参见图2,可以首先将用户输入的模拟语音信息转换为数字语音信息。之后,可以根据语音激活检测(Voice Activity Detector, VAD)确定语音起始点和终止点,再进行特征提取。S13:移动设备根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。其中,如图2所示,解码步骤往往占据着绝大部分的时间。解码器通过对声学模型的匹配和语言模型的处理来实现语音特征值和文本字串的对应关系,其中声学模型又比语言模型复杂得多。因此,对声学模型的优化会给整个语音识别系统的效率带来大量收益。本实施例通过对声学模型进行数据压缩,以避免庞大的声学模型难以运行在移动设备中。本实施例通过离线的方式进行语音识别,可以不需要依赖网络实现语音识别,方便用户使用。并且,通过对声学模型进行预先数据压缩,可以使得声学模型适应于移动设备中,以实现在移动设备离线完成语音识别。图3为本专利技术另一实施例提出的语音识别方法的流程示意图,该方法包括:S31:移动设备采集用户输入的语音信息。S32:移动设备对语音信息进行特征提取,得到特征信息。S33:移动设备对特征信息进行过滤处理,得到过滤后的特征信息。其中,如图4所示,在一段语音信息中,由于字与字之间的停顿,带来很多无用的信息。本实施例通过过滤掉这些无用信息,以保证输入到解码器中的特征信息紧凑有效。过滤处理包括但不限于跳帧等。S34:移动设备根据数据压缩后的声学模型,对输入的过滤后的特征信息进行计算,得到声学模型打分。具体的,利用声学模型进行处理的流程可以参见图5,包括:S51:对输入数据进行数据压缩。其中,输入数据是指过滤后的特征信息。S52:利用数据压缩过的声学模型,对数据压缩后的输入数据进行并行计算,得到输出数据,其中,输出数据是数据压缩的声学模型打分。其中,对输入数据进行数据压缩的算法与声学模型的数据压缩算法一致,以进行相应匹配。本实施例中的优化可以包括数据结构优化和计算模式优化,其中,数据结构优化是指对输入数据以及声学模型都进行了压缩。计算模式优化是指采用并行运算。在解码器模块中,本实施例采用了数据压缩方法,使本来非常庞大的声学模型压缩到适合在移动设备中使用的规模,同时能够保证整体识别率没有下降。此外,由于整个解码过程中的操作数均是压缩过的数据,所以,虽然相比于一般的解码过程,本实施例多了数据压缩和数据解压的过程,但是得益于压缩过的数据本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:采集用户输入的语音信息;对所述语音信息进行特征提取,得到特征信息;根据预先获取的声学模型和语言模型,对所述特征信息进行解码,得到识别后的语音信息,其中,所述声学模型为预先进行数据压缩后得到的。

【技术特征摘要】

【专利技术属性】
技术研发人员:李博王志谦胡娜穆向禹贾磊魏伟
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1