一种语音识别方法及装置制造方法及图纸

技术编号:9907324 阅读:106 留言:0更新日期:2014-04-11 06:55
本发明专利技术涉及信息处理技术领域,尤其涉及一种语音识别方法及装置;其中,所述方法包括:获取语音数据;根据所述语音数据的属性信息自动确定所述语音数据的类型;选择与所述语音数据的类型相匹配的声学模型进行语音识别。通过本发明专利技术技术方案,根据语音数据类型建立相应的声学模型,使得声学模型的建立更具准确性;进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别,使得语音的识别更具准确性。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及信息处理
,尤其涉及一种语音识别方法及装置;其中,所述方法包括:获取语音数据;根据所述语音数据的属性信息自动确定所述语音数据的类型;选择与所述语音数据的类型相匹配的声学模型进行语音识别。通过本专利技术技术方案,根据语音数据类型建立相应的声学模型,使得声学模型的建立更具准确性;进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别,使得语音的识别更具准确性。【专利说明】一种语音识别方法及装置
本专利技术涉及信息处理
,尤其涉及一种语音识别方法及装置。
技术介绍
语音识别(Speech Recognition)是新近兴起的一门新兴学科。语音识别技术的应用使得机器等相关设备“听懂”人的自然语音,实现了由语音到信号的转换。语音识别通过将语音转换成数字或模拟信号,进而由模拟或数字信号作为控制信号实现相应的控制及其他相关功能,提升了控制及其他相关功能实现的便利及灵活性。因此,语音识别在工业、军事、交通、医学、生活等各个方面有着广阔的前景。声学模型是语音识别的基础,通过对语音数据的特征量提取等实现语音的识别。现有技术中语音识别往往采用单个声学模型进行语音识别,通过训练建立一个声学模型,建立模型后根据接收的语音数据,在所建立声学模型的基础上,实现语音的识别;进而根据识别结果获取语音包含信息的数据信号,实现控制等相关功能。现有技术中,通过单个声学模型进行语音识别,因不同语音类型有各自的声学特点,以单个声学模型作为语音识别的基础会使得训练的声学模型准确度较差,并进而造成语音识别结果的准确度较低。
技术实现思路
本专利技术提供了 一种语音识别方法及装置,以提高语音识别的准确性。第一方面,本专利技术实施例提供了一种语音识别的方法,包括:获取语音数据;根据所述语音数据的属性信息自动确定所述语音数据的类型;选择与所述语音数据的类型相匹配的声学模型进行语音识别。本专利技术实施例提供的语音识别方法,根据不同语音的特点划分语音数据的类型,进而根据划分的语音数据的类型,建立与相应语音数据类型相匹配的声学模型。当进行语音识别时,相关设备根据语音数据的属性信息确定语音数据的类型后,根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本专利技术技术方案,根据语音类型建立相应的声学模型,使得声学模型的建立更具准确性;进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别,使得语音的识别更具准确性。第二方面,本专利技术实施例提供了一种语音识别的装置,包括:获取模块,用于获取语音数据;确定模块,用于根据所述语音数据的属性信息自动确定所述语音数据的类型;选择模块,用于选择与所述语音数据的类型相匹配的声学模型进行语音识别。本专利技术实施例提供的语音识别装置,根据不同语音的特点划分语音数据的类型,进而根据划分的语音数据的类型,建立与相应语音数据类型相匹配的声学模型。当进行语音识别时,相关设备根据语音数据的属性信息确定语音数据的类型后,根据确定的语音数据类型选择与语音数据类型相匹配的声学模型进行语音的识别。通过本专利技术技术方案,根据语音数据类型建立相应的声学模型,使得声学模型的建立更具准确性;进而根据相应的语音数据类型选择相应类型的声学模型进行语音识别,使得语音的识别更具准确性。【专利附图】【附图说明】此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,并不构成对本专利技术的限定。在附图中:图1是本专利技术实施例一中语音识别方法流程示意图;图2是本专利技术实施例二中语音识别方法流程示意图;图3是本专利技术实施例二中语音数据获取流程示意图;图4是本专利技术实施例二中语音识别方法数据在客户端和服务器端交互示意图;图5是本专利技术实施例三中语音识别方法流程示意图;图6是本专利技术实施例三中从语音数据包中提取语音数据的基频分量流程示意图;图7是本专利技术实施例四中语音识别方法流程示意图;图8是本专利技术实施例五中语音识别装置结构模块示意图。【具体实施方式】下面结合附图及具体实施例对本专利技术进行更加详细与完整的说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。声学模型是语音识别技术的基础,描述了语音特征到发音单元的统计对应关系,本专利技术语音识别方法具体实现是在声学模型改动的基础上而进行的。可以理解的是,不同类别的说话人语音特性也不同,以此可以根据不同类别的语音特性建立相应的声学模型。目前,声学模型采用高斯混合模型一隐马模型(G MM — HMM)或者深层神经网络一隐马模型(D N N — H M M),通过采用自适应或者在原有模型基础上采用相关类别的数据进一步迭代,生成相关类别的声学模型,并在构建多种声学模型集合而成的声学模型库。本专利技术技术方案的实现是基于上述或本领域技术人员应该知晓的任何其他方法建立的与语音数据特性类型相匹配的多种声学模型的基础上进行的,下述结合具体实施例详细说明本专利技术。图1是本专利技术实施例一中语音识别方法流程示意图;作为一种优选方式,本实施例可适用于在线语音的自动识别,并且本实施例方法应用于客户端设备或服务器端设备,或者客户端设备和服务器端设备的结合等,进而实现本专利技术方法。如图1所示,所述方法包括:步骤101、获取语音数据。语音数据是指由语音信息组成的客户端电子设备等获取,相关设备能够识别并能进行处理的数据信息。本实施例中获取语音数据是智能手机、IPAD、个人计算机、平板电脑、笔记本电脑等客户端设备或终端设备接收语音信息后,客户端或终端设备获取的语音数据。步骤102、根据所述语音数据的属性信息自动确定语音数据的类型。语音数据的类型是指根据一定的方式划分语音形成的种类不同的语音数据,可以根据语音数据的属性信息自动识别其类型;其中语音数据的属性信息包括语音数据声学特性信息,例如语音中的基频分量等、语音数据相结合的因素的信息等,例如语音数据结合的背景音乐特点等。根据具体的方式可以根据不同的语音数据的属性信息有多种多样的划分,例如,因语音数据中基频分量的存在,可以根据基频分量划分语音数据的类型。基频是浊音发音过程中声带振动的频率,语音分辨的一个主要特征是激励的类型,根据激励类型不同,可以将语音信号分为浊音和清音两大类。语音中只有浊音才有基频,浊音的激励是周期性的脉冲串,脉冲串的频率就是基音频率,也即是基频分量,简称基频。由于发声器官生理方面的差异,男性和女性的基频分量范围不同,一般地,男性的基频分量范围大约为50Hz-250Hz ;女性的基频分量范围大约为120Hz-500Hz ;儿童的基频分量范围大约为250Hz-800Hz。因此,可以根据语音中基频分量的范围确定语音数据的类型。进一步的,需要说明的是,当获取语音数据后对语音数据类型的确定可以在服务器端进行,也可以在客户端或终端进行。具体方式的选择根据应用而进行相应设定,例如,可以在客户端中确定语音数据的类型,进而将确定语音数据类型的信息和语音数据发送至服务器端实现语音的识别。步骤103、选择与语音数据的类型相匹配的声学模型进行语音识别。根据语音数据类型所对应的语音类型训练有相应类型的声学模型。当确定语音的类型后,根据语音的类型相应的确定语音数的据类型,进而本文档来自技高网...

【技术保护点】
一种语音识别方法,其特征在于,包括:获取语音数据;根据所述语音数据的属性信息自动确定所述语音数据的类型;选择与所述语音数据的类型相匹配的声学模型进行语音识别。

【技术特征摘要】

【专利技术属性】
技术研发人员:苏丹
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1