【技术实现步骤摘要】
语音识别系统、方法、装置及设备
[0001]本申请涉及语音处理
,具体涉及语音识别系统、方法和装置,语音识别模型处理方法和装置,会议记录生成系统,语音交互系统,以及电子设备。
技术介绍
[0002]语音识别是将语音转换为文字的技术。在线语音识别(实时语音识别)可将实时采集的语音快速准确识别为文字。随着端到端技术在语音识别中的应用,实时语音识别得到了更多的关注。
[0003]实时语音识别存在早终点问题,即预测的句子终点早于用户停止说话的时间。解决该问题的传统方式是,通过语音活性检测(Voice activity detection,VAD),探测语音信号中长时间的空白,以此作为说话的终点。但是,长时间的空白并不直接与结束说话相关,这也受到说话人节奏的影响,而且这种传统方法忽略了一些暗示说话结束的语音信号,如语气词等。为了更好的解决早终点问题,目前主要采用模型预测方式进行处理。例如,训练模型可识别早/中/晚的空白,将晚空白作为句子的终点。再例如,在准备训练数据时,可标注句子的真实终点,标注数据需包括句子结尾词对应的 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别系统,其特征在于,包括:语音采集模块,用于采集语音数据,发送所述语音数据;语音识别模块,用于确定语音识别模型的训练样本,所述训练样本中的语音转换文本包括句子非结尾词;调整语音识别模型的训练损失值对句子结尾词的第一梯度,以降低语音识别模型对句子结尾词的产生概率;根据调整的梯度,从训练样本中学习得到语音识别模型;以及,接收所述语音数据,通过语音识别模型,确定所述语音数据的转写文本。2.一种语音识别模型处理方法,其特征在于,包括:确定语音识别模型的训练样本,所述训练样本中的语音转换文本包括句子非结尾词;调整语音识别模型的训练损失值对句子结尾词的第一梯度,以降低语音识别模型对句子结尾词的产生概率;根据调整的梯度,从训练样本中学习得到语音识别模型。3.根据权利要求2的方法,其特征在于,所述语音识别模型的损失函数包括词的产生概率项;所述语音识别模型的梯度函数包括词的产生概率项与梯度缩放尺度项的乘积;所述调整语音识别模型的训练损失值对句子结尾词的第一梯度,包括:将第一梯度的梯度缩放尺度项设置为大于1的第一参数值。4.根据权利要求3的方法,其特征在于,还包括:调整语音识别模型的训练损失值对句子非结尾词的第二梯度,以提升语音识别模型对句子非结尾词的产生概率;所述调整语音识别模型的训练损失值对句子非结尾词的第二梯度,包括:将第二梯度的梯度缩放尺度项设置为大于0且小于1的第二参数值。5.一种语音识别方法,其特征在于,包括:从训练样本中学习得到语音识别模型,所述训练样本中的语音转换文本包括句子非结尾词,在训练所述模型时,调整语音识别模型的训练损失值对句子结尾词的第一梯度,以降低语音识别模型对句子结尾词的产生概率;接收待识别的语音数据;通过语音识别模型,确定所述语音数据的语音转换文本。6.一种语音识别方法,其特征在于,包括:采集语音数据;向服务端发送语音数据,以使得服务端采用如下方式处理所述...
【专利技术属性】
技术研发人员:赵英竹,倪崇嘉,梁祥智,查缇沙菲克,荘永祥,马斌,
申请(专利权)人:南洋理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。