【技术实现步骤摘要】
语音识别文本标点预测模型训练方法和预测方法
[0001]本专利技术涉及语音识别
,尤其涉及一种语音识别文本标点预测模型训练方法、语音识别文本标点预测方法、电子设备及存储介质。
技术介绍
[0002]目前市面上绝大部分的智能语音设备都需要使用到语音识别文本标点预测功能,如智能音响、会议录音转文字设备、智能对话机器人、视频字幕生成软件等语音识别相关的产品或软件,而在现有技术中,这些产品或软件主要是先将目标音频进行语音识别得到识别文本,仅以识别文本作为标点预测模型的输入,对识别文本中的每一个字进行分类,将其分类为一个特定的标点类型,最终根据分类结果将对应的标点符号插入到识别文本中。
[0003]对于现有技术中的,这种以目标音频的识别文本作为输入的语音识别文本标点预测方法在输入预测模型进行预测之前需要先根据上下文语义对语音识别得到的文本进行分词,在使用场景比较复杂,噪声较大,说话人出现口误或发音不标准等情况时,语音识别得到的识别文本中会存在较多错误,容易造成识别文本语义混乱不清的情况,导致分词错误,使得标点预测效果大打 ...
【技术保护点】
【技术特征摘要】
1.一种语音识别文本标点预测模型的训练方法,其特征在于,包括:根据训练音频的语音连续性将训练音频划分为多个子音频;对各子音频进行语音识别,并对识别后的包含多个词语的识别文本进行人工标注标点;确定各子音频中的各词语的停顿时长;将各词语的词嵌入向量以及与所述停顿时长对应的停顿时长向量融合,作为各词语的表示向量;利用各词语的表示向量以及所述人工标注标点后的识别文本训练标点预测模型。2.根据权利要求1所述的方法,其特征在于,根据训练音频的语音连续性将训练音频划分为多个子音频包括:使用语音端点检测模型,按照非语音片段作为分隔,将训练音频按照时间顺序切分为多个子音频,每一个子音频为一个语音片段;记录各子音频在训练音频中的起始时间和结束时间。3.根据权利要求2所述的方法,其特征在于,所述确定各子音频中的各词语的停顿时长,包括:将第i子音频的结束时间与第i+1子音频的起始时间之间的时间差作为第i子音频中的最后一个词语的停顿时长;将所述训练音频中最后一个子音频中的最后一个词语的停顿时长设置为无穷大。4.根据权利要求3所述的方法,其特征在于,所述确定各子音频中的各词语的停顿时长还包括:将每一个子音频中的除最后一个词语外的其他词语的停顿时长设置为0。5.根据权利要求1所述的方法,其特征在于,根据训练音频的语音连续性将训练音频划分为多个子音频包括:使用对齐模型,将训练音频按照时间顺序划分为多个子音频,每一个子音频为一个词语;记录各子音频在训练音频中的起始时间和结束时间。6.根据权利要求1所述的方法,其特征在于,所述将各词语的词嵌入向量以及与所述停顿时长对应的停顿时长向量融合,作为各词语的表示向量,包括:根据预设的词嵌入矩阵查找所述各词语对应的词嵌入向量;根据预设的停顿时长映射函数,确定反映所述各词语的停顿时长的离散特征值,在停顿时长嵌入矩阵中查找对应于所述离散特征值的停顿时长向量;将各词语的词嵌入向量与停顿时长向量拼接,得到各词语的表示向量。7.根据权利要求6所述的方法,其特征在于,所述预设的停顿时长映射函数的表达式为:其中,x为停顿时长,单位毫秒。
8.根据权利要求1所述的方法,其特征在于,所述利用各词语的表示向量以及所述人工标注标点后的识别文本训练标点预测模型,包括:按照多个子音频的时间顺序,拼接各子音频中的各词语的表示向量,作为所述标点预测模型的输入,将所述人工标注标点后的识别文本作为目标输出,训练所述标点预测模型。9.一种语音识别文本标点预测方法,其特征在于,包括:根据目标音频的语音连续性将目标音频划分为多个子音频;...
【专利技术属性】
技术研发人员:雷金博,
申请(专利权)人:思必驰科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。