一种协同软件语音识别系统技术方案

技术编号:27600811 阅读:23 留言:0更新日期:2021-03-10 10:22
本发明专利技术提供了一种协同软件语音识别系统,所述系统包括:客户端、自动语音识别平台和服务器;所述客户端安装有协同软件,所述协同软件接收请求,将所述请求分类:客户端处理录音、转码和提参;所述自动语音识别平台处理语音识别请求并根据动态路由自适应算法为语音识别请求分发服务器并进行服务器调用;所述服务器接收所述语音识别请求并开启识别服务。接收所述语音识别请求并开启识别服务。接收所述语音识别请求并开启识别服务。

【技术实现步骤摘要】
一种协同软件语音识别系统


[0001]本专利技术属于电子信息
,具体的,涉及一种协同软件语音识别系统。

技术介绍

[0002]语音识别技术,也被称为自动语音识别(ASR,Automatic Speech Recongnition)是将人类的语音中的词汇内容转换为计算机可读的输入,部分场景下可以理解为语音转换成文字。目前语音识别技术是人工智能领域一项比较通用的技术,一般作为辅助工具使用在应用场景中。例如使用在呼叫中心的语音转文字场景,使用在同声传译中需要实时识别整个说话过程的场景,这些场景上语音识别对于高并发的频繁调用需求要求并不是很高。因此目前大部分的语音识别服务架构都是单体架构方式,一个识别服务完成存储,转码,识别的所有工作。
[0003]随着语音识别技术的发展,识别准确率,识别速度不断的提高,语音技术开始在各行各业中全面应用,目前迫切需要一些高并发量场景下的语音识别解决方案。在协同软件中用户的日常沟通交流中,语音消息是一种使用频率非常高,数量巨大,且时效性很强的消息。并且在很多交流是在群里面产生的,参与的用户非常多,消息重复量大。另外语音输入法在协同软件中也是一个刚性需求,要求语音能及时的转换成文字提供给消息发送人进行修正。
[0004]因此需要一种解决协同软件语音识别和构建方法,将协同软件使用场景和语音识别使用场景有机的结合起来,解决该场景下的高并发语音识别需求。

技术实现思路

[0005]为了解决上述技术问题至少之一,本专利技术提供了一种协同软件语音识别系统,技术方案如下
[0006]一种协同软件语音识别系统,所述系统包括:客户端、自动语音识别平台和服务器;
[0007]所述客户端安装有协同软件,所述协同软件接收请求,将所述请求分类:客户端处理录音、转码和提参;
[0008]所述自动语音识别平台处理语音识别请求并根据动态路由自适应算法为语音识别请求分发服务器并进行服务器调用;
[0009]所述服务器接收所述语音识别请求并开启识别服务。
[0010]所述自动语音识别平台基于微服务架构并包括微服务网关、微服务注册中心和音频相关服务;
[0011]其中,
[0012]所述微服务网关接收所述语音识别请求;
[0013]微服务注册中心分析所述语音识别请求并基于所述动态路由自适应算法为所述语音识别请求分配服务器;
[0014]所述微服务网关将所述服务器拉取,进行服务器的调用。
[0015]所述微服务注册中心接收多个服务器的负载参数并计算每台服务器的负载值,根据所述负载值对服务器排序,选择最优服务器处理所述语音识别请求。
[0016]所述协同软件接收所述语音识别服务,利用声学参数识别所述音频文件,提取出所述音频文件的MFCC参数生成音频参数文件,并将所述音频参数文件发送至所述自动语音识别平台的文件服务进行存储。
[0017]所述服务器接收所述语音识别请求并开启识别服务,包括,
[0018]所述语音识别请求中包含有资源ID;
[0019]所述服务器根据所述资源ID在结果缓存服务器中查找对应的识别结果,识别成功则返回所述识别结果;
[0020]识别失败,所述服务器根据所述资源ID在文件缓存服务器查找对应的音频参数文件并根据所述音频文件的音频时间将其分配到对应的自动语音识别服务队列中。
[0021]所述音频相关服务包括文件服务和语音文件识别服务;
[0022]所述文件服务包括:文件存储服务和结果缓存服务;
[0023]所述语音文件识别服务包括:
[0024]短音频文件识别服务、中音频文件识别服务、长音频文件识别服务和实时语音识别服务。
[0025]所述识别服务队列包括:短音频文件自动语音识别服务、中音频文件自动语音识别服务和实时自动语音识别服务。
[0026]所述中音频文件识别服务利用语音读点检测技术将所述音频参数文件分片,分片后交由所述短音频文件识别服务处理,处理接口将多个识别结果合并后返回至协同软件并将识别结果和对应的资源ID存储到缓存器中。
[0027]所述服务器将时长超过120秒的音频文件和需要实时识别的音频文件分配至所述实时自动语音识别服务队列;将时长大于10秒并且小于120秒的音频文件分配至中音频文件自动语音识别服务队列;将时长低于10秒的音频文件分配至所述短音频文件自动语音识别服务队列。
[0028]本专利技术的有益效果如下:
[0029]本专利技术提供了一种协同软件语音识别系统。系统总体采用微服务架构设计,依据请求的消息长短,来设计不同的识别微服务,从而保证高并发量下识别系统的实时性和高可靠性。
附图说明
[0030]下面结合附图对本专利技术的具体实施方式作进一步详细的说明。
[0031]图1为本专利技术实施例的一种协同软件语音识别系统的整体流程图;
[0032]图2为本专利技术实施例的一种协同软件语音识别系统的动态路由自适应流程图;
[0033]图3为本专利技术实施例的一种协同软件语音识别系统服务划分逻辑图。
具体实施方式
[0034]以下结合附图和实施例对本专利技术所述的一种协同软件语音识别系统,进行详细说
明,所举实例只用于解释本专利技术,并非用于限定本专利技术的范围。
[0035]一种协同软件语音识别系统,如图1所示,包括客户端、语音识别服务平台
[0036]其中,所述语音识别微服务平台包括微服务网关、微服务注册中心和音频相关服务,所述音频相关服务包括文件存储服务、结果缓存服务、短语音文件识别服务、中语音文件识别服务、长语音文件识别服务和实时语音识别服务,所述结果缓存服务和文件存储服务分别对应不同的缓存器。
[0037]在一个优选的实施例中,所述语音识别微服务平台基于SpringCloud微服务架构,所述微服务网关基于Zuul实现,所述微服务注册中心基于Eurake实现。
[0038]在该系统中,客户端对语音服务进行划分,其中,录音、转码和提参由客户端实现,语音识别服务利用自助语音服务平台实现,客户端对用户的音频文件进行MFCC参数提取,提取声学参数的过程放在客户端进行可以有效的利用客户端的计算能力,降低服务端的开发和项目成本,减小需缓存文件的体积,降低保存原始语音的成本。
[0039]客户端接收到语音识别请求,将其传送至基于微服务架构的自动语音识别平台,微服务网关将其分配至微服务注册中心,所述微服务注册中心识别所述语音识别请求,根据动态路由自适应算法为其分配最优处理器,如图2所示,服务器每隔2秒上报一次本节点的任务状态,在一个实施例中,服务器A的最大的服务连接数C1,目前正在处理的服务连接数C2,以及本计算节点的CPU利用率C3、内存利用率C4、磁盘使用率C5作为评估服务器负载的参数。微服务网关根据所述负载参数,和各参数的权重,计算每台服务器的负载值,服务器A预先设定总连接数权重为W1,当前连接数权重为W2,CPU权重为W3,内存权重为W4,磁盘权本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种协同软件语音识别系统,其特征在于,所述系统包括:客户端、自动语音识别平台和服务器;所述客户端安装有协同软件,所述协同软件接收请求,将所述请求分类:客户端处理录音、转码和提参;所述自动语音识别平台处理语音识别请求并根据动态路由自适应算法为语音识别请求分发服务器并进行服务器调用;所述服务器接收所述语音识别请求并开启识别服务。2.根据权利要求1所述的系统,其特征在于,所述自动语音识别平台基于微服务架构并包括微服务网关、微服务注册中心和音频相关服务;其中,所述微服务网关接收所述语音识别请求;微服务注册中心分析所述语音识别请求并基于所述动态路由自适应算法为所述语音识别请求分配服务器;所述微服务网关将所述服务器拉取,进行服务器的调用。3.根据权利要求2所述的系统,其特征在于,所述微服务注册中心接收多个服务器的负载参数并计算每台服务器的负载值,根据所述负载值对服务器排序,选择最优服务器处理所述语音识别请求。4.根据权利要求1所述的系统,其特征在于,所述协同软件接收所述语音识别服务,利用声学参数识别所述音频文件,提取出所述音频文件的MFCC参数生成音频参数文件,并将所述音频参数文件发送至所述自动语音识别平台的文件服务进行存储。5.根据权利要求1所述的系统,其特征在于,所述服务器接收所述语音识别请求并开启识别服务,包括,所述语音识别请求中包含有资源ID;...

【专利技术属性】
技术研发人员:温正棋李博刘进涛任斌李振龙周仔恒郑夺
申请(专利权)人:北京仿真中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1