语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:23100700 阅读:20 留言:0更新日期:2020-01-14 20:54
本发明专利技术提供了一种语音识别方法、装置、电子设备及存储介质;方法包括:获取待识别语音信号的多个语音帧的声学特征;通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态;通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列;对所述音素序列进行解码转换,得到对应所述待识别语音信号的文本序列。如此,能够提高语音识别效率及资源利用率。

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质
本专利技术涉及人工智能(AI,ArtificialIntelligence)
,尤其涉及一种语音识别方法、装置、电子设备及存储介质。
技术介绍
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术;人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音处理技术是人工智能的一个分支,包括自动语音识别技术(ASR,AutomaticSpeechRecognition)和语音合成技术(TTS,TextToSpeech)以及声纹识别技术。其中,ASR用于模拟的语音信号转换为计算机可以处理的文本,在语音拨号、电话订票、语音输入、语音导航等各种业务中得到广泛应用。相关技术中对于语音信号的识别,通过单独运行图形处理器(GraphicsProcessingUnit,GPU)或者中央处理器(CentralProcessingUnit,CPU)对语音信号进行处理实现,语音识别效率低、资源利用率低。
技术实现思路
本专利技术实施例提供一种语音识别方法、装置、电子设备及存储介质,能够提高语音识别效率及资源利用率。本专利技术实施例提供一种语音识别方法,所述方法包括:获取待识别语音信号的多个语音帧的声学特征;通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态;通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列;通过所述中央处理器对所述音素序列进行解码转换,得到对应所述待识别语音信号的文本序列。本专利技术实施例还提供了一种语音识别装置,包括:特征获取模块,用于获取待识别语音信号的多个语音帧的声学特征;编码转换模块,用于通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态;分类组合模块,用于通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列;解码转换模块,用于通过所述中央处理器对所述音素序列进行解码转换,得到对应所述待识别语音信号的文本序列。上述方案中,所述分类组合模块,还用于当所述待识别语音信号的数量为多路时,通过中央处理器包括的各独立线程,分别对各路所述待识别语音信号的多个语音帧对应的状态进行分类组合,得到各路所述待识别语音信号对应的音素序列。上述方案中,所述装置还包括:信号分发模块,依据各路所述待识别语音信号的优先级顺序,通过分发器将各路所述待识别语音信号的语音帧对应的状态,发送至所述中央处理器包括的各独立线程。上述方案中,所述分类组合模块,还用于对当前语音帧对应的状态及历史语音帧的解码转换结果对应的标签,进行组合分类,得到对应所述当前语音帧的音素;迭代获取各所述语音帧对应的音素,并将获取的音素进行组合,得到对应所述待识别语音信号的音素序列。上述方案中,所述解码转换模块,还用于结合语言模型,通过所述中央处理器对所述音素序列进行解码,确定对应所述待识别语音信号的解码路径;将所述解码路径中包括的文本词进行组合,得到对应所述待识别语音信号的文本序列。上述方案中,所述特征获取模块,还用于响应于监听到的终端发送的长连接请求,建立与所述终端的长连接;通过所述长连接接收到所述待识别语音信号。本专利技术实施例还提供了一种电子设备,包括:存储器,用于存储可执行指令;处理器,用于执行所述存储器中存储的可执行指令时,实现本专利技术实施例提供的语音识别方法。本专利技术实施例还提供了一种存储介质,存储有可执行指令,用于引起处理器执行时,实现本专利技术实施例提供的语音识别方法。应用本专利技术实施例具有以下有益效果:1),通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态;由于将声学特征进行编码转换成对于的状态需要很大的计算量,该操作通过图形处理器实现,充分利用了图形处理器强大的计算资源,提高了编码转换的效率;2),通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列;由于对语音帧对应的状态进行分类组合得到音素序列的逻辑复杂度高,但计算量较小,因此,该操作通过中央处理器实现减少了通过图形处理器实现所造成的等待时间及数据拷贝时间,充分利用了中央处理器的资源,提高了处理效率。附图说明图1为相关技术中提供的音素与状态的对应关系的示意图;图2为相关技术中提供的自动语音识别系统100的一个可选的结构示意图;图3为相关技术提供的语音识别的流程示意图;图4为相关技术提供的语音信号的分帧示意图;图5为本专利技术实施例提供的CPU实现语音识别的运行框架示意图;图6为本专利技术实施例提供的GPU实现语音识别的运行框架示意图;图7为本专利技术实施例提供的RNNtransducer的结构示意图;图8为本专利技术实施例提供的基于RNNtransducer的语音识别的架构示意图;图9为本专利技术实施例提供的语音识别系统的一个可选的架构示意图;图10为本专利技术实施例提供的电子设备600的结构示意图;图11为本专利技术实施例提供的语音识别方法的框架示意图;图12为本专利技术实施例提供的语音识别方法的流程示意图;图13为本专利技术实施例提供的语音识别方法的流程示意图。具体实施方式为了使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术作进一步地详细描述,所描述的实施例不应视为对本专利技术的限制,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本专利技术保护的范围。在以下的描述中,涉及到“一些实施例”,其描述了所有可能实施例的子集,但是可以理解,“一些实施例”可以是所有可能实施例的相同子集或不同子集,并且可以在不冲突的情况下相互结合。在以下的描述中,所涉及的术语“第一\第二”仅仅是是区别类似的对象,不代表针对对象的特定排序,可以理解地,“第一\第二”在允许的情况下可以互换特定的顺序或先后次序,以使这里描述的本专利技术实施例能够以除了在这里图示或描述的以外的顺序实施。除非另有定义,本文所使用的所有的技术和科学术语与属于本专利技术的
的技术人员通常理解的含义相同。本文中所使用的术语只是为了描述本专利技术实施例的目的,不是旨在限制本专利技术。对本专利技术实施例进行进一步详细说明之前,对本专利技术实施例中涉及的名词和术语进行说明,本专利技术实施例中涉及的名词和术语适用于如下的解释。1)语音识别,将人的语音转换为文本的技术,目标是让运行语音识别系统的设备能够听写出不同人所说本文档来自技高网
...

【技术保护点】
1.一种语音识别方法,其特征在于,所述方法包括:/n获取待识别语音信号的多个语音帧的声学特征;/n通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态;/n通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列;/n对所述音素序列进行解码转换,得到对应所述待识别语音信号的文本序列。/n

【技术特征摘要】
1.一种语音识别方法,其特征在于,所述方法包括:
获取待识别语音信号的多个语音帧的声学特征;
通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态;
通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列;
对所述音素序列进行解码转换,得到对应所述待识别语音信号的文本序列。


2.如权利要求1所述的方法,其特征在于,所述获取待识别语音信号的多个语音帧的声学特征,包括:
对所述待识别语音信号进行加窗分帧处理,得到所述待识别语音信号的多个语音帧;
分别对各所述语音帧进行特征提取,得到所述待识别语音信号的多个语音帧的声学特征。


3.如权利要求1所述的方法,其特征在于,所述方法还包括:
当所述待识别语音信号的数量为多路时,通过收集器对多路所述待识别语音信号的声学特征进行特征拼接,得到多路所述待识别语音信号对应的特征块。


4.如权利要求3所述的方法,其特征在于,所述通过图形处理器对所述多个语音帧的声学特征进行编码转换,得到各所述语音帧对应的状态,包括:
通过所述图形处理器的单线程对所述特征块进行编码转换,得到各路所述待识别语音信号包括的各所述语音帧对应的状态。


5.如权利要求1所述的方法,其特征在于,所述通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列,包括:
当所述待识别语音信号的数量为多路时,通过中央处理器包括的各独立线程,分别对各路所述待识别语音信号的多个语音帧对应的状态进行分类组合,得到各路所述待识别语音信号对应的音素序列。


6.如权利要求5所述的方法,其特征在于,所述方法还包括:
依据各路所述待识别语音信号的优先级顺序,通过分发器将各路所述待识别语音信号的语音帧对应的状态,发送至所述中央处理器包括的各独立线程。


7.如权利要求1所述的方法,其特征在于,所述通过中央处理器对各所述语音帧对应的状态进行分类组合,得到对应所述待识别语音信号的音素序列,包括:
对当前语音帧对应的状态及历史语音帧的解码转换结果对应的标签,进行组合分类,得到对应所述当前语音帧的音素;
迭代获取各所述语音帧对应的音素,并将获取的音素进行组合,得到对应所述待识别语音信号的音素序列。<...

【专利技术属性】
技术研发人员:杨伟光
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1