语音识别方法及系统技术方案

技术编号:18716731 阅读:21 留言:0更新日期:2018-08-21 23:35
本发明专利技术公开一种语音识别方法及系统。所述语音识别方法包括:提取待识别的语音数据的声学特征;基于声学‑音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素‑语言神经网络模型,将所述音素阵列进一步解码为文字序列。本发明专利技术实施例的语音识别系统,声学‑音素神经网络模型的输出的音素阵列就可以作为音素‑语言神经网络模型的输入,无缝衔接了声学‑音素神经网络模型和音素‑语言神经网络模型,从整体上看,提供了另一种全新的端到端的语音识别架构,极大提高了语音识别的效率。

Speech recognition method and system

The invention discloses a speech recognition method and a system. The speech recognition method includes: extracting the acoustic characteristics of the speech data to be recognized; decoding the acoustic characteristics into a phoneme array based on the acoustic_phoneme neural network model; and further decoding the phoneme array into a text sequence based on the phoneme_language neural network model. The phoneme array of the output of the acoustical phoneme neural network model can be used as the input of the phoneme language neural network model in the speech recognition system of the embodiment of the present invention, which seamlessly connects the acoustical phoneme neural network model with the phoneme language neural network model, and provides a new end-to-end approach to the whole. The speech recognition architecture of the terminal greatly improves the efficiency of speech recognition.

【技术实现步骤摘要】
语音识别方法及系统
本专利技术属于语音分析
,尤其涉及一种语音识别方法及系统。
技术介绍
语音识别通过机器学习方法让机器能够自动的将语音转换成对应的文字,其广泛应用于各种智能终端上,也使得越来越多的用户习惯用语音输入词语。目前相关技术中的语音识别处理大致有两种策略:第一策略,将语音数据分解为不同的声学特征向量,并由WFST(weightedfinaite-statetransducer,带权有限状态转录机)结合预存储的词典表,解码对应于声学特征向量的候选词语;第二策略,基于神经网络的端到端的语音识别方案,具体是向基于神经网络的语音识别模型输入声学特征,就能够直接由该语音识别模型输出对应于该声学特征的词语序列,提高了识别效率。但是,本申请的专利技术人在实践本申请的过程中发现上述相关技术中的技术方案至少存在如下缺陷:在第一策略中,由于预设定好的词典表无法适用于神经网络,并且WFST也不是神经网络,使其需要存储大量的语言模型信息,占用大量的内存,一般通过在云端部署WFST来实现,且其查找过程需要耗费较长的时间,降低了语音识别效率;在第二策略中,需要训练充分的神经网络模型才能够保障其所输出结果的可靠性,使得需要用海量的被标注好的语音数据对该神经网络模型进行训练(训练用的标注文字的语音数据量一般需要达到2000万小时以上),使得该端到端的语音识别方法始终也只是停留在设想阶段,未能得到有效实践。需说明的是,关于上述相关技术的描述的目的,仅为了便于公众更方便地了解本申请的实践过程,且申请人并不承认针对上述相关技术的描述为现有技术。
技术实现思路
本专利技术实施例提供一种语音识别方法及系统,用于至少解决上述技术问题之一。第一方面,本专利技术实施例提供一种语音识别方法,包括:提取待识别的语音数据的声学特征;基于声学-音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素-语言神经网络模型,将所述音素阵列进一步解码为文字序列。第二方面,本专利技术实施例提供一种语音识别方法,包括:特征提取程序模块,用于提取待识别的语音数据的声学特征;声学-音素神经网络模型,用于将所述声学特征解码为音素阵列;以及音素-语言神经网络模型,用于将所述音素阵列进一步解码为文字序列。第三方面,本专利技术实施例提供一种电子设备,其包括:至少一个处理器,以及与所述至少一个处理器通信连接的存储器,其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法的步骤。第四方面,本专利技术实施例提供一种存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述方法的步骤。本专利技术实施例的有益效果在于:其一,在系统中设置有声学-音素神经网络模型和音素-语言神经网络模型,并且声学-音素神经网络模型的输出的音素阵列就可以作为音素-语言神经网络模型的输入,无缝衔接了声学-音素神经网络模型和音素-语言神经网络模型,从整体上看,能够将输入声学-音素神经网络模型的声学特征通过音素-语言神经网络模型输出相应的文字序列,(相比于相关技术中应用整个神经网络实现端到端识别策略而言)提供了另一种全新的“端到端”的语音识别架构,并且不需要训练海量的文字标注的语音数据(因为神经网络模型是基于音素-语言的),使其更易于被有效实施;其二,相比于WFST识别策略,本专利技术实施例采用了基于两个神经网络模型和声学特征提取设备的相互配合就能够完成语音识别,使得本专利技术可以在不通过部署在云端的WFST的情况下,即不需要联网也同样能够实现语音识别;其三,由于语音识别模型采用了全神经网络架构,在识别的过程中不需要经过对数据庞大的语音库和词典表的查询,降低了对产品内存的需求,提高了产品的适用范围和识别效率,例如其可以在录音笔上使用,以使录音笔也能够实现语音识别的功能。本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例的语音识别系统的一实施例的结构框图;图2为本专利技术实施例的语音识别系统的另一实施例的结构框图;图3A为本专利技术实施例语音识别系统中的声学-音素神经网络模型的模块化训练的示例架构图;图3B为本专利技术实施例语音识别系统中的音素-语言模型的模块化训练的示例架构图;图3C为本专利技术实施例语音识别系统执行端到端语音识别的示例架构图;图4为本专利技术实施例的语音识别方法的一实施例的流程图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本专利技术可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、元件、数据结构等等。也可以在分布式计算环境中实践本专利技术,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。在本专利技术中,“模块”、“系统”等等指应用于计算机的相关实体,如硬件、硬件和软件的组合、软件或执行中的软件等。详细地说,例如,元件可以、但不限于是运行于处理器的过程、处理器、对象、可执行元件、执行线程、程序和/或计算机。还有,运行于服务器上的应用程序或脚本程序、服务器都可以是元件。一个或多个元件可在执行的过程和/或线程中,并且元件可以在一台计算机上本地化和/或分布在两台或多台计算机之间,并可以由各种计算机可读介质运行。元件还可以根据具有一个或多个数据包的信号,例如,来自一个与本地系统、分布式系统中另一元件交互的,和/或在因特网的网络通过信号与其它系统交互的数据的信号通过本地和/或远程过程来进行通信。最后,还需要说明的是,在本文中,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如图1所示,本专利技术的一实施例的语音识别系统10A,包括特征提取程序模块101、声学-音素神经网络模型102和音素-语言神经网络模型103。具体的,特征提取程序模块101可以提取待识别的语音数据的声学特征,以及,关于特征提取程序模块101的工作原理,可以是参照传统的声学特征提取的方式,在此不作限定。具体的,声学-音素神经网络模型102可以将声学特征转换为音素阵列;需说明的是,音素(phoneme)是语音中的最小的单位,依据音节里的发音动作来分析,一个动作构成一个音素,音素分为元音、辅音两大类,本文档来自技高网...

【技术保护点】
1.一种语音识别方法,包括:提取待识别的语音数据的声学特征;基于声学‑音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素‑语言神经网络模型,将所述音素阵列进一步解码为文字序列。

【技术特征摘要】
1.一种语音识别方法,包括:提取待识别的语音数据的声学特征;基于声学-音素神经网络模型,将所述声学特征解码为音素阵列;以及基于音素-语言神经网络模型,将所述音素阵列进一步解码为文字序列。2.根据权利要求1所述的方法,其中,该方法还包括针对所述音素-语言神经网络模型的训练步骤,包括:基于词典表和文本数据训练所述音素-语言神经网络模型,其中所述词典表中预存储音素序列和对应的文字序列。3.根据权利要求2所述的方法,其中,所述针对所述音素-语言神经网络模型的训练步骤还包括:使用基于注意力的编码器-解码器来训练所述音素-语言神经网络模型,以令所述音素-语言神经网络模型自动学习对准音素序列和单词序列。4.根据权利要求1所述的方法,其中,该方法还包括针对所述声学-音素神经网络模型的训练步骤,包括:根据联结主义时序分类,使用声学特征和对应的音素序列训练所述声学-音素神经网络模型。5.根据权利要求1所述的方法,其中,在所述基于声学-音素神经网络模型将所述声学特征解码为音素阵列之后,该方法还包括:使用音素同步解码程序模块来采样所述声学-音素神经网络模型所解码的所述音素阵列,并将采样后的所述音素阵列输入至所述音素-语言神经网络模型,其中所述音素同步解码程序...

【专利技术属性】
技术研发人员:俞凯陈哲怀刘奇李豪游永彬
申请(专利权)人:苏州思必驰信息科技有限公司上海交通大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1