语音识别方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:18499412 阅读:20 留言:0更新日期:2018-07-21 21:18
本发明专利技术涉及一种语音识别方法,包括:获取实时采集语音数据形成的语音数据流,将语音数据流实时依次处理生成对应的数据包流;将数据包流按照流式传输至服务器,以使服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;接收服务器根据识别进度依次返回的识别结果和对应的已解析数据包总长度;当语音数据流结束时,获取语音数据流对应的数据流总长度;当当前已解析数据包总长度与数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到语音数据流的目标语音识别结果,提高语音识别效率。

Speech recognition method, device, computer equipment and storage medium

The invention relates to a speech recognition method, which includes: obtaining the voice data stream formed by real-time acquisition of voice data, processing the speech data stream in real time and generating corresponding data packet flow in real time, transferring the packet stream to the server according to the flow pattern, so that the server will receive the received data packet in real time speech analysis to generate the corresponding data. Identify the results, and statistics the total length of the parsed packet; the receiving server returns the recognition results in sequence according to the recognition progress and the total length of the corresponding parsed packet; when the voice data stream ends, the total length of the data flow corresponding to the voice data stream is obtained; when the total length of the packet is resolved and the total length of the data stream is currently parsed, When compared with the result of speech recognition, the result of speech recognition is obtained according to the current recognition results corresponding to the total length of the data packet, which can improve the efficiency of speech recognition.

【技术实现步骤摘要】
语音识别方法、装置、计算机设备和存储介质
本专利技术涉及计算机
,特别是涉及一种语音识别方法、装置、计算机设备和存储介质。
技术介绍
随着计算机技术的发展,网络与多媒体技术相互结合的应用在人们的日常生活中越来越常见。在许多场景都存在识别语音数据,将语音转化为文本的应用需求,如通过语音生成控制指令,通过语音通信等。传统的方法,往往将进行语音录制完毕得到完整的待转换语音数据,再将完整的待转换语音数据进行转换,得到语音识别结果,语音识别效率低,对于实时性要求较高的场景不能达到较好的识别速度。
技术实现思路
基于此,有必要针对上述技术问题,提供一种语音识别方法、装置、计算机设备和存储介质,能提前终止对语音数据的识别且得到正确的语音识别结果,提高语音识别效率。一种语音识别方法,所述方法包括:获取实时采集语音数据形成的语音数据流,将所述语音数据流实时依次处理生成对应的数据包流;将所述数据包流按照流式传输至服务器,以使所述服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;接收服务器根据识别进度依次返回的识别结果和对应的已解析数据包总长度;当所述语音数据流结束时,获取所述语音数据流对应的数据流总长度;当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到所述语音数据流的目标语音识别结果。一种语音识别装置,所述装置包括:数据包流生成模块,用于获取实时采集语音数据形成的语音数据流,将所述语音数据流实时依次处理生成对应的数据包流;流式传输模块,用于将所述数据包流按照流式传输至服务器,以使所述服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;接收模块,用于接收服务器根据识别进度依次返回的识别结果和对应的已解析数据包总长度;数据流总长度获取模块,用于当所述语音数据流结束时,获取所述语音数据流对应的数据流总长度;提前识别模块,用于当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,将当前已解析数据包总长度对应的当前识别结果作为所述语音数据流的目标语音识别结果。一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述任一实施例所述语音识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行上述任一实施例所述语音识别方法的步骤。上述语音识别方法、装置、计算机设备和存储介质,通过获取实时采集语音数据形成的语音数据流,将语音数据流实时依次处理生成对应的数据包流,将数据包流按照流式传输至服务器,以使服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度,接收服务器根据识别进度依次返回的识别结果和对应的已解析数据包总长度,当语音数据流结束时,获取语音数据流对应的数据流总长度,当当前已解析数据包总长度与数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到语音数据流的目标语音识别结果,通过识别进度判断是否已经将有效语音部分解析完毕,不需要将整个语音数据解析完毕就可提前得到语音识别结果,提高了语音识别的效率。一种语音识别方法,所述方法包括:接收终端按照流式传输的数据包流,将数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;根据识别进度依次确定识别结果和对应的已解析数据包总长度;当所述数据包流对应的语音数据流结束时,获取所述语音数据流对应的数据流总长度;当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到所述语音数据流的目标语音识别结果。一种语音识别装置,所述装置包括:处理模块,用于接收终端按照流式传输的数据包流,将数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;当前进度确定模块,用于根据识别进度依次确定识别结果和对应的已解析数据包总长度;数据流总长度确定模块,用于当所述数据包流对应的语音数据流结束时,获取所述语音数据流对应的数据流总长度;提前识别模块,用于当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,将当前已解析数据包总长度对应的当前识别结果作为所述语音数据流的目标语音识别结果。一种计算机设备,包括存储器和处理器,所述存储器中储存有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述任一实施例所述语音识别方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机可执行指令,所述计算机可执行指令被处理器执行时,使得所述处理器执行上述任一实施例所述语音识别方法的步骤。上述语音识别方法、装置、计算机设备和存储介质,通过接收终端按照流式传输的数据包流,将数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度,根据识别进度依次确定识别结果和对应的已解析数据包总长度,当数据包流对应的语音数据流结束时,获取语音数据流对应的数据流总长度,当当前已解析数据包总长度与数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到语音数据流的目标语音识别结果,服务器通过识别进度判断是否已经将有效语音部分解析完毕,不需要将整个语音数据解析完毕就可提前得到语音识别结果,提高了语音识别的效率。附图说明图1为一个实施例中语音识别方法的应用环境图;图2为一个实施例中图1中服务器的内部结构图;图3为一个实施例中图1中终端的内部结构图;图4为另一个实施例中语音识别方法的应用环境图;图5为一个实施例中语音识别方法的流程图;图6为一个实施例中计算数据流总长度的流程图;图7为一个实施例中确定满足语音识别提前终止的流程图;图8为一个实施例中语音识别提前结束判断示意图;图9为一个实施例中另一种语音识别方法的流程图;图10为一个实施例中判断满足语音识别提前终止条件的流程图;图11为一个实施例中语音识别装置的结构框图;图12为一个实施例中数据流总长度获取模块的结构框图;图13为一个实施例中提前识别模块的结构框图;图14为一个实施例中另一种语音识别装置的结构框图;图15为一个实施例中提前识别模块的结构框图;图16为另一个实施例中提前识别模块的结构框图。具体实施方式如图1所示,提供了一种语音识别系统,包括服务器102、至少一个终端104。服务器102用于提供对语音识别的支持,可以用独立的一个服务器实现,也可以包括多个服务器,且每个服务器分别实现语音识别的部分功能。在一个实施例中,图1中的服务器102的内部结构如图2所示,该服务器102包括通过系统总线连接的处理器、存储介质、内存和网络接口。其中,该服务器102的存储介质存储有操作系统、数据库和第一语音识别装置,该第一语音识别装置用于实现一种适用于服务器的语音识别方法。图1中的终端104的内部结构如图3所示,该终端104与服务器102通过网络连接,该终端104包括通过系统总本文档来自技高网...

【技术保护点】
1.一种语音识别方法,所述方法包括:获取实时采集语音数据形成的语音数据流,将所述语音数据流实时依次处理生成对应的数据包流;将所述数据包流按照流式传输至服务器,以使所述服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;接收服务器根据识别进度依次返回的识别结果和对应的已解析数据包总长度;当所述语音数据流结束时,获取所述语音数据流对应的数据流总长度;当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到所述语音数据流的目标语音识别结果。

【技术特征摘要】
1.一种语音识别方法,所述方法包括:获取实时采集语音数据形成的语音数据流,将所述语音数据流实时依次处理生成对应的数据包流;将所述数据包流按照流式传输至服务器,以使所述服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;接收服务器根据识别进度依次返回的识别结果和对应的已解析数据包总长度;当所述语音数据流结束时,获取所述语音数据流对应的数据流总长度;当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到所述语音数据流的目标语音识别结果。2.根据权利要求1所述的方法,其特征在于,将所述语音数据流实时依次处理生成对应的数据包流的步骤包括:获取所述语音数据流的语音数据流标识,根据所述语音数据流标识将所述语音数据实时依次处理生成与语音数据流标识对应的数据包流;所述以使所述服务器将接收的数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度的步骤包括:提取数据包携带的语音数据流标识,根据语音数据流标识统计所述语音数据流标识对应的已解析数据包总长度,根据语音数据流标识返回识别结果和对应的已解析数据包总长度。3.根据权利要求1所述的方法,其特征在于,当所述语音数据流结束时,获取所述语音数据流对应的数据流总长度的步骤包括:通过静音检测算法检测语音数据流中的静音数据;当连续静音数据对应的静音时长达到预设阈值时长时,判断所述语音数据流结束;将预设阈值时长对应的静音数据作为所述语音数据流的尾部数据计算得到所述数据流总长度。4.根据权利要求3所述的方法,其特征在于,所述当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,将当前已解析数据包总长度对应的当前识别结果作为所述语音数据流的目标语音识别结果的步骤包括:获取所述语音数据流对应的语音编码算法,根据所述语音编码算法计算单位时长对应的单位语音数据长度;计算所述预设阈值时长对应的阈值语音数据长度,根据所述阈值语音数据长度确定提前终止阈值长度;计算所述当前已解析数据包总长度与数据流总长度的长度间距;当所述长度间距小于所述提前终止阈值长度时,判断所述对比结果满足语音识别提前终止条件。5.一种语音识别方法,所述方法包括:接收终端按照流式传输的数据包流,将数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度;根据识别进度依次确定识别结果和对应的已解析数据包总长度;当所述数据包流对应的语音数据流结束时,获取所述语音数据流对应的数据流总长度;当当前已解析数据包总长度与所述数据流总长度对比得到的对比结果满足语音识别提前终止条件时,根据当前已解析数据包总长度对应的当前识别结果得到所述语音数据流的目标语音识别结果。6.根据权利要求5所述的方法,其特征在于,所述将当前已解析数据包总长度对应的当前识别结果作为所述语音数据流的目标语音识别结果的步骤之后,还包括:向终端返回所述目标语音识别结果。7.根据权利要求6所述的方法,其特征在于,所述将数据包进行实时语音解析生成对应的识别结果,并统计已解析数据包总长度的步骤包括:提取数据包携带的语音数据流标识,根据语音数据流标识进行实时语音解析生成语音数据流标识对应的识别结果,统计所述语音数据流标识对应的已解析数据包总长度;所述向终端返回所述目标语音识别结果的步骤包括:根据语音数据流标识向终端返回对应的目标语音识别结果。8.根据权利要求5所述的方法,其特征在于,所述当所述数据包流对应的语音数据流结束时,获取所述语音数据流对应的数据流总长度的步骤包括:当检测到第...

【专利技术属性】
技术研发人员:高鸿
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1