【技术实现步骤摘要】
建立标点预测模型的方法、装置
本申请涉及深度学习
,尤其涉及自然语言处理
中的一种建立标点预测模型的方法、装置、电子设备和可读存储介质。
技术介绍
自动语音识别系统是现今人机交互的重要组成部分,也是智能终端上用户输入的常见方式。然而语音识别系统输出的通常是无标点文本,这种无标点文本存在以下缺陷:1)在人机交互场景中,交互系统通常需要将用户发出的语音指令转写成文本,对文本进行自然语言处理,从而进行交互,而无标文本通常存在歧义问题,严重影响自然语言处理任务的性能和交互系统的流畅性;2)在语音转录场景中,无标点文本对于用户而言无法快速划分语义单元,无法明确句子语句的始末位置,可读性差。随着人机交互场景的丰富,语义越来越复杂,无标点文本歧义严重和可读性差的缺陷越专利技术显。现有技术通常基于transformer模型来实现对无标点文本中所包含标点的预测。但是基于transformer模型来预测标点时会发生标点预测错误的问题,导致由于输入与输出的序列长度发生变化,而降低transformer模型中训练预测时的不匹配程度,从而降低了标点预测的准确性。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种建立标点预测模型的方法,包括:获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述 ...
【技术保护点】
1.一种建立标点预测模型的方法,包括:/n获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;/n将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;/n将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;/n确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;/n根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。/n
【技术特征摘要】
1.一种建立标点预测模型的方法,包括:
获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;
将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;
将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;
确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;
根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。
2.根据权利要求1所述的方法,其中,所述根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列包括:
将所述预测序列与所述无标点文本对应的标点标注结果进行比较,确定预测错误类型;
利用与所述预测错误类型对应的采样方法对所述解码结果进行处理,得到所述训练标签序列。
3.根据权利要求2所述的方法,其中,所述利用与所述预测错误类型对应的采样方法对所述解码结果进行处理,得到所述训练标签序列包括:
响应于所述预测错误类型为标点删除,使用已删除的标点替换所述解码结果中对应所删除标点的位置处的特定标签,得到所述训练标签序列。
4.根据权利要求2所述的方法,其中,所述利用与所述预测错误类型对应的采样方法对所述解码结果进行处理,得到所述训练标签序列包括:
响应于所述预测错误类型为标点插入,使用特定标签替换所述解码结果中所增加的标点,得到所述训练标签序列。
5.根据权利要求1所述的方法,其中,所述根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件包括:
将所述编码结果与所述预测序列作为所述解码组件的输入,得到所述解码组件的输出;
根据所述训练标签序列与所述解码组件的输出,调整所述解码组件中的参数,直至所述解码组件收敛。
6.根据权利要求1所述的方法,还包括,
设置对应于所述解码组件包含的各解码器中掩码自注意力层的第一矩阵,以及设置对应于所述解码组件包含的各解码器中自注意力层的第二矩阵;
结合所述第一矩阵完成各解码器中所述掩码自注意力层的自注意力计算,以及结合所述第二矩阵完成各解码器中所述自注意力层的自注意力计算。
7.根据权利要求6所述的方法,还包括,
设置对应于所述编码组件包含的各编码器中自注意力层的第三矩阵;
结合所述第三矩阵完成各编码器中所述自注意力层的自注意力计算。
8.一种建立标点预测模型的装置,包括:
获取单元,用于获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;
编码单元,用于将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;
解码单元,用于将无标点文本对应的标点标注结果与所...
【专利技术属性】
技术研发人员:梁鸣心,付晓寅,张辽,
申请(专利权)人:北京百度网讯科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。