一种语音识别系统及方法技术方案

技术编号:15507915 阅读:146 留言:0更新日期:2017-06-04 02:24
本发明专利技术提供了一种语音识别系统及方法,系统包括:音频采集装置、应用客户端以及语音识别装置,所述音频采集装置,用于采集音频数据并向应用客户端发送激励码,所述激励码用于标识有声音输入的音频采集装置;所述应用客户端,用于根据所述的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;所述语音识别装置,将所述的音频数据转换成文字内容,并根据确定的用户身份生成包含用户身份的语音识别结果。本发明专利技术实现精确区分声音流中讲话人的角色,从而实现识别结果分角色展现讲话内容,极大增强了识别输出文本的易读和可用性。

Speech recognition system and method

The present invention provides a system and method for speech recognition system, including: audio acquisition device, application client and voice recognition device, the audio acquisition device for audio data acquisition and application to the client sends the incentive code for audio acquisition device identification code excited voice input; the application of the client. To determine the identity of the user according to the user's identity and the audio acquisition device the incentive codes and pre stored correspondence; the voice recognition device, the audio data into the text, and generate the speech recognition result contains the identity of the users according to the identity of the user specified. The invention realizes the accurate distinction of the role of the speaker in the sound stream, thereby realizing the identification result, showing the speech content in part, and greatly enhancing the legibility and usability of identifying the output text.

【技术实现步骤摘要】
一种语音识别系统及方法
本专利技术涉及语音识别技术,具体的讲是一种语音识别系统及方法。
技术介绍
现有技术中,语音识别应用有两类,一类是基于个人终端(手机、个人电脑等)通过调用设备音频采集功能,提交云端语音识别服务器完成识别,识别结果返回终端;另一类是基于企事业单位内部的应用,声音数据来源为专用音视频编码设备,企业专用识别服务器通过网络获取音视频编码设备的音频数据实现识别,识别结果输出给专用记录软件终端。针对以上第二类应用,在所采集的声音数据为混音数据时,识别结果(即输出的文字内容)无法区分出说话人员的身份,导致识别文档的可读性差,可用性极低。如果采用每一个话筒单独编一路音频,以此来区分发言人身份的话,要增设专用设备,对现有硬件、布线等进行相应改造。
技术实现思路
为实现在完成语音识别生成文字的同时,对识别的文字内容区分讲话人角色,提高识别内容的可读性和可用性,本专利技术实施例提供了一种语音识别系统,系统包括:音频采集装置、应用客户端以及语音识别装置,其中,所述音频采集装置,用于采集音频数据并向应用客户端发送激励码,所述激励码用于标识有声音输入的音频采集装置;所述应用客户端,用于根据所述的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;所述语音识别装置,将所述的音频数据转换成文字内容,并根据确定的用户身份生成包含用户身份的语音识别结果。本专利技术实施例中,应用客户端包括:接收模块,用于接收所述的激励码;存储模块,用于预存储用户身份与音频采集装置对应关系;身份确定模块,用于根据接收到的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;发送模块,用于将确定的用户身份结果发送至所述语音识别装置。本专利技术实施例中,客户端还包括:任务发起模块,获取所述的音频采集装置的音频流地址,并通过所述发送模块将包含音频流地址的任务发起请求发送到所述语音识别装置。本专利技术实施例中,语音识别装置包括:接口模块,接收所述用户身份结果和任务发起请求;拉流模块,用于根据所述任务发起请求建立音频流连接获取所述音频数据;识别模块,用于将音频数据转换为文字内容;结果生成模块,用于根据所述用户身份结果和文字内容生成包含用户身份的语音识别结果。本专利技术实施例中,语音识别装置还包括:时长确定模块,用于根据建立的音频流连接确定音频流时长。本专利技术实施例中,应用客户端还包括:切换时长确定模块,根据所述的音频流时长和对应该音频流后接收到的第一次激励码的时间确定声音输入时长。本专利技术实施例中,所述的身份确定模块根据对应该音频流后接收到的第一次激励码确定用户身份;所述的发送模块将确定的声音输入时长和确定的用户身份发送至所述语音识别装置。本专利技术实施例中,语音识别装置包括:切换时间确定模块,根据声音输入时长确定音频数据的切换时间。本专利技术实施例中,所述的识别模块,根据确定的切换时间将该切换时间前的音频数据转换为文字内容。同时,本专利技术还提供一种语音识别方法,利用上述的语音识别系统进行语音识别。本专利技术基于音视频编码设备的语音激励机制,通过合理定义同一计时原点,实现精确区分声音流中讲话人的角色,从而实现识别结果分角色展现讲话内容,极大增强了识别输出文本的易读和可用性。为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术公开的一种语音识别系统的框图;图2为本专利技术实施例公开的一种语音识别系统的框图;图3为本专利技术实施方式的示意图;图4为本专利技术实施方式中的示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术旨在解决音视频编解码设备提供的混音数据流,在完成语音识别生成文字的同时,对识别内容区分出讲话人角色,提高识别内容的可读性和可用性。从而工作人员对庭审、会议等应用识别系统实现记录自动生成完整可用的记录文档。如图1所示,为本专利技术公开的一种语音识别系统的框图,该系统包括:音频采集装置101、应用客户端102以及语音识别装置103;音频采集装置101,用于采集音频数据并向应用客户端发送激励码,所述激励码用于标识有声音输入的音频采集装置;所述应用客户端102,用于根据激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;所述语音识别装置103,将所述的音频数据转换成文字内容,并根据确定的用户身份生成包含用户身份的语音识别结果。如图2所示,本专利技术实施例中的应用客户端102包括:接收模块1021,用于接收所述的激励码;存储模块1022,用于预存储用户身份与音频采集装置对应关系;身份确定模块1023,用于根据接收到的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;发送模块1024,用于将确定的用户身份结果发送至所述语音识别装置。本专利技术实施例中,应用客户端还包括:任务发起模块1025,获取所述的音频采集装置的音频流地址,并通过所述发送模块1024将包含音频流地址的任务发起请求发送到语音识别装置。本专利技术实施例中,语音识别装置103包括:接口模块1031,接收所述用户身份结果和任务发起请求;拉流模块1032,用于根据所述任务发起请求建立音频流连接获取所述音频数据;识别模块1033,用于将音频数据转换为文字内容;结果生成模块1034,用于根据所述用户身份结果和文字内容生成包含用户身份的语音识别结果。本专利技术实施例中,语音识别装置103还包括:时长确定模块1035,用于根据建立的音频流连接确定音频流时长。本专利技术实施例中,应用客户端102还包括:切换时长确定模块1026,根据所述的音频流时长和对应该音频流后接收到的第一次激励码的时间确定声音输入时长。本专利技术实施例中,身份确定模块1023根据对应该音频流后接收到的第一次激励码确定用户身份;发送模块1024将确定的声音输入时长和确定的用户身份发送至所述语音识别装置。本专利技术实施例中,语音识别装置1031包括:切换时间确定模块1036,根据声音输入时长确定音频数据的切换时间。识别模块,根据确定的切换时间将该切换时间前的音频数据转换为文字内容。本专利技术实施例中,可采用音视频编解码设备作为音频采集装置,本专利技术实施例中,音视频编解码设备上,通过音频板卡接入多路话筒,每个话筒有声音输入时会生成一个激励码(即标识哪个话筒开始有声音输入),并通过网络将激励码发给业务应用客户端,应用客户端转译为身份识别码后转发给语音识别装置,语音识别装置根据收到不同的身份识别码,将识别结果增加身份标识并发送给应用客户端,应用客户端将身份码转换为实际名称(人名或角色名)输出到最终文档记录中。如图3所示,为本专利技术实施方式的示意图。1、声音数据由音视频采集设备配套话筒完成音视频数据,编码后生成实时音频流及对应流地址。2本文档来自技高网...
一种语音识别系统及方法

【技术保护点】
一种语音识别系统,其特征在于,所述的系统包括:音频采集装置、应用客户端以及语音识别装置,其中,所述音频采集装置,用于采集音频数据并向应用客户端发送激励码,所述激励码用于标识有声音输入的音频采集装置;所述应用客户端,用于根据所述的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;所述语音识别装置,将所述的音频数据转换成文字内容,并根据确定的用户身份生成包含用户身份的语音识别结果。

【技术特征摘要】
1.一种语音识别系统,其特征在于,所述的系统包括:音频采集装置、应用客户端以及语音识别装置,其中,所述音频采集装置,用于采集音频数据并向应用客户端发送激励码,所述激励码用于标识有声音输入的音频采集装置;所述应用客户端,用于根据所述的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;所述语音识别装置,将所述的音频数据转换成文字内容,并根据确定的用户身份生成包含用户身份的语音识别结果。2.如权利要求1所述的语音识别系统,其特征在于,所述的应用客户端包括:接收模块,用于接收所述的激励码;存储模块,用于预存储用户身份与音频采集装置对应关系;身份确定模块,用于根据接收到的激励码和预存储的用户身份与音频采集装置对应关系确定用户身份;发送模块,用于将确定的用户身份结果发送至所述语音识别装置。3.如权利要求2所述的语音识别系统,其特征在于,所述的应用客户端还包括:任务发起模块,获取所述的音频采集装置的音频流地址,并通过所述发送模块将包含音频流地址的任务发起请求发送到所述语音识别装置。4.如权利要求3所述的语音识别系统,其特征在于,所述的语音识别装置包括:接口模块,接收所述用户身份结果和任务发起请求;拉流模块...

【专利技术属性】
技术研发人员:王瑞宾单衍景
申请(专利权)人:北京华夏电通科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1