语音识别方法、装置、电子设备和存储介质制造方法及图纸

技术编号：30161944 阅读：27 留言：0更新日期：2021-09-25 15:15

本发明专利技术实施例涉及通信领域，公开了一种语音识别方法、装置、电子设备和存储介质。语音识别方法包括：获取待识别文件；对所述待识别文件进行分割，获取若干待识别子文件；建立至少两个连接并通过所述至少两个连接同时上传所述待识别子文件，供服务器对所述待识别子文件进行语音识别；获取所述待识别子文件的语音识别结果；拼接所述待识别子文件的语音识别结果，得到所述待识别文件的语音识别结果。实现了语音识别过程中对文件的并行处理，提高了语音识别的效率，减少服务器处理时间，提高了用户体验。户体验。户体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音识别方法、装置、电子设备和存储介质

[0001]本专利技术实施例涉及通信领域，特别涉及一种语音识别方法、装置、电子设备和存储介质。

技术介绍

[0002]语音识别是一种将语音信号转变为相应文本的技术，广泛应用于长句语音输入、音视频字幕、直播质检、会议记录等场景。目前已有各类服务提供商为用户提供能够进行语音识别的服务器，在用户要对某个包含语音信号的媒体文件进行语音识别时，只需要将文件上传至服务器并接收服务器返回的语音识别结果即可。上述语音识别方法主要有两种实现方式：一是实时语音识别，在客户端和服务器之间建立WebSocket连接后，通过该连接一边向服务器上传文件，一边获取服务器返回的语音识别结果，其中，WebSocket是一种基于传输控制协议(Transmission Control Protocol，TCP)的全双工协议，即建立连接后通信双方都可以不断向对方发送数据；一是上传完整的文件再进行识别，此时可以基于WebSocket连接进行流式传输，也可以基于超文本传输协议(Hyper Text Transfer Protoc...

【技术保护点】

【技术特征摘要】
1.一种语音识别方法，其特征在于，包括：获取待识别文件；对所述待识别文件进行分割，获取若干待识别子文件；建立至少两个连接并通过所述至少两个连接同时上传所述待识别子文件，供服务器对所述待识别子文件进行语音识别；获取所述待识别子文件的语音识别结果；拼接所述待识别子文件的语音识别结果，得到所述待识别文件的语音识别结果。2.根据权利要求1所述的方法，其特征在于，所述待识别文件的格式为波形声音文件WAV格式，所述获取待识别文件包括：获取原始文件；当所述原始文件的格式为非WAV格式，将所述原始文件的格式转化为WAV格式，得到所述待识别文件。3.根据权利要求1所述的方法，其特征在于，所述对所述待识别文件进行分割，获取若干待识别子文件之前，还包括：获取所述待识别文件的播放总时长；所述对所述待识别文件进行分割，获取若干待识别子文件包括：根据所述播放总时长对所述待识别文件进行分割，获取所述待识别子文件。4.根据权利要求3所述的方法，其特征在于，所述待识别子文件的语音识别结果包括文本信息和时间信息，所述拼接所述待识别子文件的语音识别结果，得到所述待识别文件的语音识别结果之前，还包括：获取记录的每个所述待识别子文件在所述播放总时长中的起始时刻；所述拼接所述待识别子文件的语音识别结果包括：根据所述起始时刻对所述时间信息进行修改；根据修改后的所述时间信息对所述文本信息进行拼接。5.根据权利要求1所述的方法，其特征在于，所述建立至少两个连接并通过所述至少两个连接同时上传所述待识别子文件，包括：为每个所述待识别子文件分别创建WebSocke...

【专利技术属性】
技术研发人员：李达，
申请(专利权)人：天九共享网络科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人