语音识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号：23100700 阅读：20 留言：0更新日期：2020-01-14 20:54

本发明专利技术提供了一种语音识别方法、装置、电子设备及存储介质；方法包括：获取待识别语音信号的多个语音帧的声学特征；通过图形处理器对所述多个语音帧的声学特征进行编码转换，得到各所述语音帧对应的状态；通过中央处理器对各所述语音帧对应的状态进行分类组合，得到对应所述待识别语音信号的音素序列；对所述音素序列进行解码转换，得到对应所述待识别语音信号的文本序列。如此，能够提高语音识别效率及资源利用率。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备及存储介质
本专利技术涉及人工智能(AI，ArtificialIntelligence)
，尤其涉及一种语音识别方法、装置、电子设备及存储介质。
技术介绍
人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能，感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统和机电一体化等技术；人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。语音处理技术是人工智能的一个分支，包括自动语音识别技术(ASR，AutomaticSpeechRecognition)和语音合成技术(TTS，TextToSpeech)以及声纹识别技术。其中，ASR用于模拟的语音信号转换为计算机可以处理的文本，在语音拨号、电话订票、语音输入、语音导航等各种业务中得到广泛应用。相关技术中对于语音信号的识别，通过单独运行图形处理器(GraphicsProcessingUnit，GPU)或者中央处理器(CentralProcessingUnit，CPU)对语音信号进行处理实现，语音识别效率低、资源利用率低。
技术实现思路
本专利技术实施例提供一种语音识别方法、装置、电子设备及存储介质，能够提高语音识别效率及资源利用率。本专利技术实施例提供一种语音识别方法，所述方法包括：获取...

【技术保护点】
1.一种语音识别方法，其特征在于，所述方法包括：/n获取待识别语音信号的多个语音帧的声学特征；/n通过图形处理器对所述多个语音帧的声学特征进行编码转换，得到各所述语音帧对应的状态；/n通过中央处理器对各所述语音帧对应的状态进行分类组合，得到对应所述待识别语音信号的音素序列；/n对所述音素序列进行解码转换，得到对应所述待识别语音信号的文本序列。/n

【技术特征摘要】
1.一种语音识别方法，其特征在于，所述方法包括：
获取待识别语音信号的多个语音帧的声学特征；
通过图形处理器对所述多个语音帧的声学特征进行编码转换，得到各所述语音帧对应的状态；
通过中央处理器对各所述语音帧对应的状态进行分类组合，得到对应所述待识别语音信号的音素序列；
对所述音素序列进行解码转换，得到对应所述待识别语音信号的文本序列。

2.如权利要求1所述的方法，其特征在于，所述获取待识别语音信号的多个语音帧的声学特征，包括：
对所述待识别语音信号进行加窗分帧处理，得到所述待识别语音信号的多个语音帧；
分别对各所述语音帧进行特征提取，得到所述待识别语音信号的多个语音帧的声学特征。

3.如权利要求1所述的方法，其特征在于，所述方法还包括：
当所述待识别语音信号的数量为多路时，通过收集器对多路所述待识别语音信号的声学特征进行特征拼接，得到多路所述待识别语音信号对应的特征块。

4.如权利要求3所述的方法，其特征在于，所述通过图形处理器对所述多个语音帧的声学特征进行编码转换，得到各所述语音帧对应的状态，包括：
通过所述图形处理器的单线程对所述特征块进行编码转换，得到各路所述待识别语音信号包括的各所述语音帧对应的状态。

5.如权利要求1所述的方法，其特征在于，所述通过中央处理器对各所述语音帧对应的状态进行分类组合，得到对应所述待识别语音信号的音素序列，包括：
当所述待识别语音信号的数量为多路时，通过中央处理器包括的各独立线程，分别对各路所述待识别语音信号的多个语音帧对应的状态进行分类组合，得到各路所述待识别语音信号对应的音素序列。

6.如权利要求5所述的方法，其特征在于，所述方法还包括：
依据各路所述待识别语音信号的优先级顺序，通过分发器将各路所述待识别语音信号的语音帧对应的状态，发送至所述中央处理器包括的各独立线程。

7.如权利要求1所述的方法，其特征在于，所述通过中央处理器对各所述语音帧对应的状态进行分类组合，得到对应所述待识别语音信号的音素序列，包括：
对当前语音帧对应的状态及历史语音帧的解码转换结果对应的标签，进行组合分类，得到对应所述当前语音帧的音素；
迭代获取各所述语音帧对应的音素，并将获取的音素进行组合，得到对应所述待识别语音信号的音素序列。<...

【专利技术属性】
技术研发人员：杨伟光，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人