响应语音终止点的方法、装置、介质、程序产品和系统制造方法及图纸

技术编号：43673345 阅读：21 留言：0更新日期：2024-12-18 20:58

本发明专利技术提供了一种响应语音终止点的方法、装置、介质、程序产品和系统，响应语音终止点的方法，包括：将采集的音频文件输入至语音识别模型，得到语音识别模型输出的至少一个目标解码结果，目标解码结果包括第一文本、第一文本的概率值以及第一文本在第一加权有限状态转换器中所对应的状态，第一文本是语音识别模型对音频文件进行语音识别得到的文本；基于一个或多个目标解码结果中的第一文本在第一加权有限状态转换器中所对应的状态为终止状态，根据至少一个目标解码结果中第一文本的概率值确定第一时长；在第一时刻后的第一时长内，取消对检测到的语音终止点的响应，第一时刻是音频文件的采集时刻。改善检测得到的音频文件不完整的问题。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理，具体而言，涉及一种响应语音终止点的方法、装置、介质、程序产品和系统。

技术介绍

1、语音激活检测(voice activity detection，vad)是一种用于识别音频信号中语音活动的技术。其主要目的是在音频流中区分语音和非语音部分，如静音、噪音或背景音。

2、相关技术方案中，语音交互系统通常包含语音激活检测的模块。语音激活检测的模块通过移除非语音数据，使后续的自动语音识别的模块只需处理语音数据，在提高处理效率的同时，降低误识别的几率。

3、语音激活检测能够检测音频文件中是否包含语音，确定语音的起始点和语音终止点。对于一些交互场景中，如说话时可能会因为思考而产生较长时间的停顿的交互场景，语音激活检测会因为说话停顿而判定存在语音终止点，使得语音激活检测得到的音频文件不完整。

技术实现思路

1、本专利技术旨在至少解决现有技术或相关技术中存在的语音激活检测会因为说话停顿而判定存在语音终止点，使得语音激活检测得到的音频文件不完整的问题。

2、为此，本专本文档来自技高网...

【技术保护点】

1.一种响应语音终止点的方法，其特征在于，包括：

2.根据权利要求1所述的响应语音终止点的方法，其特征在于，所述语音终止点包括：

3.根据权利要求1所述的响应语音终止点的方法，其特征在于，所述将采集的音频文件输入至语音识别模型，得到所述语音识别模型输出的至少一个目标解码结果，具体包括：

4.根据权利要求3所述的响应语音终止点的方法，其特征在于，

5.根据权利要求1至4中任一项所述的响应语音终止点的方法，其特征在于，所述基于一个或多个所述目标解码结果中的所述第一文本在第一加权有限状态转换器中所对应的状态为终止状态，根据所述至少一个目标解码结果...

【技术特征摘要】

1.一种响应语音终止点的方法，其特征在于，包括：

2.根据权利要求1所述的响应语音终止点的方法，其特征在于，所述语音终止点包括：

4.根据权利要求3所述的响应语音终止点的方法，其特征在于，

5.根据权利要求1至4中任一项所述的响应语音终止点的方法，其特征在于，所述基于一个或多个所述目标解码结果中的所述第一文本在第一加权有限状态转换器中所对应的状态为终止状态，根据所述至少一个目标解码结果中所述第一文本的概率值确定第一时长，具体包括：

6.根据权利要求5所述的响应语音终止点的方法，其特征在于，所述样本集合包括第二文本和/或第三文本；

7.根据权利要求6所述的响应语音终止点的方法，其特征在于，所述第二子音频文件位于所述第一子音频文件之后，所述第一子音频文件是未被自然语言模型所识别到的子音频文件，所述第二子音频文件是被自然语言模型所识别到的子音频文件。

【专利技术属性】
技术研发人员：王添翼，高羽，
申请(专利权)人：美的集团上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人