交互语音识别方法、识别芯片、交互设备及介质技术

技术编号：33716981 阅读：82 留言：0更新日期：2022-06-08 21:07

本发明专利技术提供一种交互语音识别方法、识别芯片、交互设备及介质，该方法包括：将交互语音信息对应的音频数据划分为多帧语音信号，基于CTC声学模型，确定每帧语音信号在多个标签上对应的概率值；判断语音信号在空白标签上的概率值是否大于或等于预设阈值；若是则将当前判断的语音信号在空白标签上的概率值识别为其最终概率值；若否则由上一个语音信号在当前非空白标签上的概率值，更新当前判断的语音信号在当前非空白标签上的概率值，并基于更新的各概率值，确定当前判断的语音信号的最终概率值；将与各语音信号的最终概率值对应的标签形成为语音标签序列，并将语音标签序列生成为语音数据的识别结果。以此，实现准确高效的识别交互语音信息。交互语音信息。交互语音信息。

全部详细技术资料下载

【技术实现步骤摘要】
交互语音识别方法、识别芯片、交互设备及介质

[0001]本专利技术涉及语音识别
，具体涉及一种交互语音识别方法、识别芯片、交互设备及介质。

技术介绍

[0002]随着科学技术的发展，智能交互设备的普及程度越来越高。在智能交互设备中，交互语音识别是实现人机交互的关键方式之一；向智能交互设备发起语音，智能交互设备对该语音识别并响应，以实现人机交互。当前，交互语音识别通常基于CTC(Connectionist Temporal Classification，连接主义时间分类)声学模型解码实现；并且，CTC模型的解码算法主要有贪心搜索、束搜索和前缀搜索。
[0003]其中，贪心搜索在计算时，每一步选择概率最大的输出值，直到出现终结符或出现最大句子长度，得到最终解码序列。束搜索是一种启发式图搜索算法，在每一步深度扩展时，去掉一些质量比较差的结点，保留质量较高的结点，得到一系列解码路径。进而将一系列解码路径中相同解码标签序列的路径合并，选择概率最大的标签序列为最终的解码序列。前缀束搜索则是基于束搜索的改进算法，相对于束搜索...

【技术保护点】

【技术特征摘要】
1.一种基于CTC声学模型的交互语音识别方法，其特征在于，所述交互语音识别方法包括以下步骤：S100，当侦测到交互语音信息时，将所述语音信息对应的音频数据划分为具有时间先后关系的多帧语音信号；S200，基于CTC声学模型，确定每帧所述语音信号在所述CTC声学模型中多个标签上分别对应的概率值，其中多个所述标签包括空白标签和多个非空白标签；S300，根据所述时间先后关系，逐一判断所述语音信号在所述空白标签上的概率值是否大于或等于预设阈值：若当前判断的所述语音信号在所述空白标签上的概率值大于或等于预设阈值，则执行步骤S400，若当前判断的所述语音信号在空白标签上的概率值小于预设阈值，则执行步骤S500；S400，将在所述空白标签上的概率值识别为当前判断的所述语音信号的最终概率值；S500，判断时间在先的上一个语音信号在当前非空白标签上的概率值是否为所述上一个语音信号的最终概率值，根据判断结果对当前判断的所述语音信号在当前非空白标签上的概率值进行更新；S600，基于当前判断的所述语音信号在各个非空白标签上更新的概率值之间的大小关系，确定当前判断的所述语音信号的最终概率值；S700，查找与各帧所述语音信号的最终概率值分别对应的标签，并将查找到的标签生成为语音标签序列，基于各标签所对应的语义，将所述语音标签序列生成为所述音频数据的识别结果。2.根据权利要求1所述的交互语音识别方法，其特征在于，步骤S500包括：判断时间在先的上一个语音信号在当前非空白标签上的概率值是否为所述上一个语音信号的最终概率值：若为所述上一个语音信号的最终概率值，则维持当前判断的所述语音信号在当前非空白标签上的概率值不变；若不为所述上一个语音信号的最终概率值，则对所述上一个语音信号在当前非空白标签上的概率值和当前判断的所述语音信号在当前非空白标签上的概率值进行加和运算，并用加和运算的运算结果，对当前判断的所述语音信号在当前非空白标签上的概率值更新。3.根据权利要求1所述的交互语音识别方法，其特征在于，在步骤S500之前包括：确定当前判断的所述语音信号是否为时间最先的所述语音信号；若为时间最先的所述语音信号，则根据当前判断的所述语音信号在各个标签上分别对应的概率值，确定当前判断的所述语音信号的最终概率值；若当前判断的所述语音信号非时间最先的所述语音信号，则执行...

【专利技术属性】
技术研发人员：汪星，徐会，
申请(专利权)人：珠海市杰理科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人