【技术实现步骤摘要】
语音处理方法、模型训练方法、界面显示方法及设备
本申请涉及计算机
,尤其涉及一种语音处理方法、模型训练方法、界面显示方法及设备。
技术介绍
随着科技的不断发展,带有语音交互功能的智能终端,例如:智能音箱逐渐出现在人们的视野中。在日常使用过程中,用户需要通过唤醒词唤醒智能音箱,唤醒后的智能音箱开启麦克风对周围环境进行音频采集,采集完之后对采集到的音频进行语音识别,根据语音识别结果进行响应。而现有技术中,智能音箱通常是在检测到用户静默的时长达到设定时长后,就认为用户语音已经结束,也即采集完毕,进而执行后续识别、响应等操作。然而,这种检测语音是否结束的方法很容易出现智能音箱响应慢或中断用户语音等问题。
技术实现思路
鉴于上述问题,提出了本申请以提供一种解决上述问题或至少部分地解决上述问题的语音处理方法、模型训练方法、界面显示方法及设备。于是,在本申请的一个实施例中,提供了一种语音处理方法。该方法包括:对采集到的待识别语音进行语音识别,得到声学信息和文本信息;根据所述 ...
【技术保护点】
1.一种语音处理方法,其特征在于,包括:/n对采集到的待识别语音进行语音识别,得到声学信息和文本信息;/n根据所述声学信息和所述文本信息,利用训练好的检测模型获得检测结果;其中,所述检测模型包括第一网络、第二网络以及第三网络;所述第一网络用于对所述声学信息进行特征提取,得到声学特征;所述第二网络用于对所述文本信息进行特征提取,得到文本特征;所述第三网络用于融合所述声学特征和所述文本特征,得到融合特征;并根据所述融合特征,检测所述待识别语音是否结束;/n根据所述检测结果,执行相应操作。/n
【技术特征摘要】
1.一种语音处理方法,其特征在于,包括:
对采集到的待识别语音进行语音识别,得到声学信息和文本信息;
根据所述声学信息和所述文本信息,利用训练好的检测模型获得检测结果;其中,所述检测模型包括第一网络、第二网络以及第三网络;所述第一网络用于对所述声学信息进行特征提取,得到声学特征;所述第二网络用于对所述文本信息进行特征提取,得到文本特征;所述第三网络用于融合所述声学特征和所述文本特征,得到融合特征;并根据所述融合特征,检测所述待识别语音是否结束;
根据所述检测结果,执行相应操作。
2.根据权利要求1所述的方法,其特征在于,融合所述声学特征和所述文本特征,得到融合特征,包括:
拼接所述声学特征和所述文本特征,得到拼接特征;
根据所述拼接特征,确定融合特征。
3.根据权利要求1所述的方法,其特征在于,根据所述拼接特征,确定融合特征,包括:
根据所述拼接特征,预测所述声学特征对应的第一权重以及所述文本特征对应的第二权重;
根据所述声学特征、所述文本特征、所述第一权重以及所述第二权重,确定所述融合特征。
4.根据权利要求1至3中任一项所述的方法,其特征在于,对所述文本信息进行特征提取,得到文本特征,包括:
获取多个文本单元各自对应的第一向量;其中,所述文本信息由所述多个文本单元按序组成;
针对每一个文本单元,综合所述多个文本单元各自对应的第一向量,通过上下文语义融合得到每一个文本单元对应的第二向量;
根据所述多个文本单元各自对应的第二向量,确定所述文本特征。
5.根据权利要求4所述的方法,其特征在于,所述多个文本单元中包括第一文本单元;
针对所述第一文本单元,综合所述多个文本单元各自对应的第一向量,通过上下文语义融合得到所述第一文本单元对应的第二向量,包括:
分别对所述多个文本单元各自对应的第一向量进行特征提取,得到所述多个文本单元各自对应的第三向量;
根据所述多个文本单元中各文本单元对应的第一向量,计算所述多个文本单元中各文本单元与所述第一文本单元的语义相关性;
根据所述语义相关性以及所述多个文本单元各自对应的第三向量,确定所述第一文本单元对应的第二向量。
6.根据权利要求4所述的方法,其特征在于,在对所述文本信息进行特征提取,得到文本特征的步骤之前,还包括:
在所述文本信息的开始位置处添加第一字符,在所述文本信息的结束位置处添加第二字符,得到处理后的文本信息;
其中,所述处理后的文本信息由所述多个文本单元按序组成;其中,所述多个文本单元中排在首位的为所述第一字符;所述多个文本单元中排在末位的为所述第二字符。
7.根据权利要求5所述的方法,其特征在于,根据所述多个文本单元各自对应的第二向量,确定所述文本特征,包括:
将所述第一字符对应的第二向量作为所述文本特征。
8.根据权利要求1至3中任一项所述的方法,其特征在于,所述待识别语音中包括多个音频帧;
所述声学信息中包括所述多个音频帧各自对应的帧向量;
对所述声学信息进行特征提取,得到声学特征,包括:
堆叠所述多个音频帧各自对应的帧向量,得到音频矩阵;
对所述音频矩阵进行卷积处理,得到至少一个卷积后矩阵;
根据所述至少一个卷积后矩阵,得到所述声学特征。
9.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述融合特征,检测所述待识别语音是否结束,包括:
根据所述融合特征,对所述待识别语音进行分类;
根据分类结果,确定所述待识别语音是否结束。
10.根据权利要求1至3中任一项所述的方法,其特征在于,还包括:
根据采集到的所述待识别语音,采用语音端点检测技术,检测当前静默时长;
根据所述当前静默时长,确定是否触发所述对采集到的待识别语音进行语音识别,得到声学信息和文本信息的步骤。
11.根据权利要求10所述的方法,其特征在于,根据所述当前静默时长,确定是否触发所述对采集到的待识别语音进行语音识别,得到声学信息和文本信息的步骤,包括:
获取上一次触发所述对采集到的待识别语音进行语音识别,得到声学信息和文本信息的步骤的触发时间点;
确定所述触发时间点距当前时刻的时间间隔;
所述时间间隔大于所述当前静默时长、且所述当前静默时长达到第一预设时长时,触发所述对采集到的待识别语音进行语音识别,得到声学信息和文本信息的步骤;
所述时间间隔小于所述当前静默时长、且所述时间间隔达到所述第一预设时长时,触发所述对采集到的待识别语音进行语音识别,得到声学信息和文本信息的步骤。
12.根据权利要求11所述的方法,其特征在于,还包括:
所述当前静默时长大于第二预设时长时,判定所述待识别语音结束。
13.根据权利要求1至3中任一项所述的方法,其特征在于,根据所述检测结果,执行相应操作,包括:
所述检测结果表明所述待识别语音结束时,执行关闭用于采集语音的语音采集单元的操作。
14.一种模型训练方法,其特征在于,包括:
获取样本语音对应的样本声学信息和样本文本信息;
根据所述样本声学信息和样本文本信息,利用检测模型获得实际检测结果;其中,所述检测模型包括第一网络、第二网络以及第三网络;所述第一网络用于对所述样本声学信息进行特征提取,得到样本声学特征;所述第二网络用于对所述样本文本信息进行特征提取,得到样本文本特征;所述第三网络用于融合所述样本声学特征和所述样本文本特征,得到样本融合特征;根据所述样本融合特征,检测所述样本语音是否结束;
根据所述实际检测结果以及所述样本语音对应的期望检测结果,对所述检测模型进行参数优化;
其中,所述检测模型用于识别待识别语音是否结束。
15.根据权利要求14所述的方法,其特征在于,还包括:
获取训练语音;
对所述训练语音进行语音端点检测,得到所述训练语音的语音端点检测结果;
所述待识别语音端点检测结果中第一静默部分的静默时长大于第一预设时长时,在所述训练语音中所述第一静默部分对应的第一语音片段中确定第一截取音频帧;
从所述训练语音中,截取所述第一截取音频帧及位于其之前的第二语音片段,得到所述样本语音。
16.根据权利要求15所述的方法,其特征在于,还包括:
对所述训练语音进行语音识别,得到训练文本信息;
对所述样本语音进行语音识别,得到所述样本文本信息;
根据所述样本文本信息与所述训练文本信息是否相同,确定所述样本语音对应的期望检测结果。
17.根据权利要求14至16中任一项所述的方法,其特征在于,还包括:
利用文本训练库,对所述第二网络进行预训练;
其中,所述文本训练库中包括多个训练文本及其对应的训练标签。
18.一种语音处理方法,适于服务端,其特征在于,包括:
接收到客户端发送的检测请求后,对所述客户端发送来的其采集到的待识别语音进行语音识别,得到声学信息和文本信息;
根据所述声学信息和所述文本信息,利用训练好的检测模型获得检测结果;其中,所述检测模型包括第一网络、第二网络以及第三网络;所述第一网络用于对所述声学信息进行特征提取,得到声学特征;所述第二网络用于对所述文本信息进行特征提取,得到文本特征;所述第三网络用于融合所述声学特征和所述文本特征,得到融合特征;根据所述融合特征,检测所述待识别语音是否结束;
根据所述检测结果,执行相应操作。
19.根据权利要求18所述的方法,其特征在于,根据所述检测结果,执行相应操作,包括:
所述检测结果表明所述待识别语音结束时,向所述客户端发送语音结束信号和所述文本信息,以使所述客户端关闭用于采集语音的语音采集单元,并根据所述文本信息,执行相应的任务响应。
20.一种语音处理方法,适于客户端,其特征在于,包括:
向服务端发送检测请求以及采集到的待识别语音,以使所述服务端接收到客户端发送的检测请求后,对所述待识别语音进行语音识别,得到声学信息和文本信息;根据...
【专利技术属性】
技术研发人员:袁园,胡于响,姜飞俊,
申请(专利权)人:阿里巴巴集团控股有限公司,
类型:发明
国别省市:开曼群岛;KY
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。