降低语音识别系统延时的方法及系统技术方案

技术编号：26480603 阅读：149 留言：0更新日期：2020-11-25 19:26

本发明专利技术提供了一种降低语音识别系统延时的方法及系统，所述方法执行以下步骤：步骤1：对接收到的语音信号进行解码处理，得到解码语音数据；步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；步骤3：根据所述片段相似度结果，得到断句结果。根据本发明专利技术的方法，利用引擎中已解码出的静音特征，根据某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到断句结果，可以实时监测引擎中最新的数据是否有足够长的静音片段，可以消除缓存数据和分片带来的延时影响，能在第一时间拿到断句信号，因此可以显著提升用户体验。

全部详细技术资料下载

【技术实现步骤摘要】
降低语音识别系统延时的方法及系统
本专利技术涉及语音识别
，特别涉及一种降低语音识别系统延时的方法及系统。
技术介绍
在实时交互中，语音识别系统的延时是影响交互体验的一个重要因素，更低的延时意味着更快的系统响应和更好的体验感受。目前市场上的语音识别系统，延时包括引擎固有延时和其他延时，其中引擎固有延时是指由于神经网络结构本身的特性，引擎的处理总会有一部分未处理的缓存数据所导致的延时；其他延时指除引擎固有延时之外的延时，包括分片延时和阈值延时等，分片延时是指引擎分片处理数据时，不可能刚好将分片切在语音开始和结束处，不同的分片大小可能会导致完全不同的断句效果，阈值延时是指用户需要拿到足够长的静音，才能做断句操作。目前市面上语音识别系统的延时，大多是基于阈值在调整。阈值越大，延时越高；阈值越小，延时低，但是也容易断句在相邻的语音上，用户稍微喘口气停顿一下就断句了，影响用户体验。
技术实现思路
本专利技术提供一种降低语音识别系统延时的方法及系统，用以解决语音识别中的延时问题，在实时交互中及时断句。<...

【技术保护点】
1.一种降低语音识别系统延时的方法，其特征在于，所述方法执行以下步骤：/n步骤1：对接收到的语音信号进行解码处理，得到解码语音数据；/n步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；/n步骤3：根据所述片段相似度结果，得到断句结果。/n

【技术特征摘要】
1.一种降低语音识别系统延时的方法，其特征在于，所述方法执行以下步骤：
步骤1：对接收到的语音信号进行解码处理，得到解码语音数据；
步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果；
步骤3：根据所述片段相似度结果，得到断句结果。

2.如权利要求1所述的方法，其特征在于，所述步骤2：比较所述解码语音数据中的某个静音片段和当前接收到的语音片段之间的音频片段相似度，得到片段相似度结果执行以下步骤：
步骤S21：在所述解码语音数据中确定一个静音片段作为参考静音片段；
步骤S22：提取所述参考静音片段中的音频特征，得到第一音频特征；
步骤S23：对于引擎接收到的每个时间片段，计算当前接收时间点之前的预设时长的语音片段的音频特征，得到第二音频特征；
步骤S24：比较所述第一音频特征和所述第二音频特征之间的音频片段相似度，得到片段相似度结果。

3.如权利要求2所述的方法，其特征在于，在所述步骤S23中，所述预设时长为断句阈值。

4.如权利要求2所述的方法，其特征在于，所述步骤S21：在所述解码语音数据中确定一个静音片段作为参考静音片段执行以下步骤：
步骤S211：在所述解码语音数据中，根据静音开始时间点和静音终止时间点，确定若干静音片段；
步骤S212：在若干静音片段中随机选择一个，作为所述参考静音片段。

5.如权利要求1所述的方法，其特征在于，所述步骤3：根据所述片段相似度结果，得到断句结果执行以下步骤：
步骤S31：若所述片段相似度结果大于等于预设的相似度阈值，则确定所述预设时长的语音片段为静音段，并在所述预设时长的语音片段末尾断句；
步骤S32：若所述片段相似度结果小于预设的相似度阈值，则确定所述预设时长的语音片段为非静音段。

6.如权利要求...

【专利技术属性】
技术研发人员：范红亮，
申请(专利权)人：云知声智能科技股份有限公司，厦门云知芯智能科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人