【技术实现步骤摘要】
本专利技术涉及一种在连续语音识别系统中进行语音识别解码效率优化方法,用于提升基于云计算的语音识别系统的并发路数以及识别速度。
技术介绍
随着手机等智能终端上语音输入功能和应用的普及,用户在手机等智能终端上使用语音输入的场景越来越多。而这些应用场景多是基于云计算进行,智能终端负责录音及音频数据压缩,然后将数据发送到云端的识别服务器上进行识别,识别结果再返回给智能终端。对于基于云计算的语音识别系统,如果能够提升单台识别服务器的并发路数和识别速度,相同数量的识别服务器可以同时支持更多用户的使用,从而可以为整个云计算平台节省大量硬件成本。然而,为了提升语音识别效果,往往会训练出规模庞大的语言模型和声学模型,由这些模型构建的解码网络加载起来常常需要几十G的内存。语音识别过程需要频繁地在几十G的内存中做查询,特别是在多路并发的情况下,内存读取的带宽会成为制约系统效率(并发路数和识别速度)的瓶颈。目前的连续语音识别系统如图1所示,包括如下几个部分端点检测、特征提取、解码以及结果输出。在连续语音识别系统的几个模块中,解码模块计算量占比最大(占80%以上),内存读取也最频繁,是影响整个系统效率(并发路数和识别速度)的最关键模块,也是最需要进行效率优化的核心模块。目前的解码方案,是基于帧同步的Viterbi解码。系统首先将语言模型的语义网络通过声学模型扩展成基于模型状态层的搜索网络,其示意图如图2所示。在这种基于状态节点的搜索网络中所有声学模型状态按时间顺序重复排列,使得每一时间点的状态列都对应于一帧语音特征矢量。搜索时,分别计算每一列状态节点相对于输入语音帧的累积路径概率 ...
【技术保护点】
一种语音识别解码效率优化方法,其特征在于实现步骤如下:(1)对于每三帧语音特征矢量,先在弧内进行Viterbi动态规划,每一条弧上最多能够输出三个得分和对应的路径,三个得分和路径分别对应三个连续不同帧的输出;(2)根据Viterbi算法,该三个得分和对应的路径传递到该弧的后续节点上进行竞争,产生新的三个最优路径往下传递,直到传递到解码网络的最后一个节点,产生最优识别结果;所述部分是指和对应帧的得分和路径竞争;(3)保留到节点上的优胜者,在下三帧到来时继续扩展到该节点的后续出弧上去;(4)对于最后一帧语音特征矢量,传递到解码网络最后一个节点(Final)并胜出的路径即为最优路径;(5)回溯最优路径,得到对应的词序列,即为识别结果。
【技术特征摘要】
1.一种语音识别解码效率优化方法,其特征在于实现步骤如下 (1)对于每三帧语音特征矢量,先在弧内进行Viterbi动态规划,每一条弧上最多能够输出三个得分和对应的路径,三个得分和路径分别对应三个连续不同帧的输出; (2)根据Viterbi算法,该三个得分和对应的路径传递到该弧的后续节点上进行竞争,产生新的三个最优路径往下传递,直到传递到解码网络的最后一个节点,产生最优识别结果;所述部分是指和对应帧的得分和路径竞争; (3)保留到节点上的优胜者,在下三帧到来时继续扩展到该节点的后续出弧上去; (4)对于最后一帧语音特...
【专利技术属性】
技术研发人员:鹿晓亮,赵志伟,陈旭,尚丽,吴晓如,于振华,潘青华,
申请(专利权)人:安徽科大讯飞信息科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。