建立标点预测模型的方法、装置制造方法及图纸

技术编号:26890812 阅读:20 留言:0更新日期:2020-12-29 16:07
本申请公开了一种建立标点预测模型的方法、装置,涉及深度学习以及自然语言处理技术领域。本申请在建立标点预测模型时所采用的实现方案为:获取训练数据;将无标点文本输入transformer模型中的编码组件,得到编码组件输出的编码结果;将无标点文本对应的标点标注结果与编码结果输入transformer模型中的解码组件,得到解码组件输出的解码结果;确定解码结果对应的预测序列,并根据预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;根据编码结果、预测序列与训练标签序列,训练解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。本申请能够提升训练得到的标点预测模型在预测标点时的准确度。

【技术实现步骤摘要】
建立标点预测模型的方法、装置
本申请涉及深度学习
,尤其涉及自然语言处理
中的一种建立标点预测模型的方法、装置、电子设备和可读存储介质。
技术介绍
自动语音识别系统是现今人机交互的重要组成部分,也是智能终端上用户输入的常见方式。然而语音识别系统输出的通常是无标点文本,这种无标点文本存在以下缺陷:1)在人机交互场景中,交互系统通常需要将用户发出的语音指令转写成文本,对文本进行自然语言处理,从而进行交互,而无标文本通常存在歧义问题,严重影响自然语言处理任务的性能和交互系统的流畅性;2)在语音转录场景中,无标点文本对于用户而言无法快速划分语义单元,无法明确句子语句的始末位置,可读性差。随着人机交互场景的丰富,语义越来越复杂,无标点文本歧义严重和可读性差的缺陷越专利技术显。现有技术通常基于transformer模型来实现对无标点文本中所包含标点的预测。但是基于transformer模型来预测标点时会发生标点预测错误的问题,导致由于输入与输出的序列长度发生变化,而降低transformer模型中训练预测时的不匹配程度,从而降低了标点预测的准确性。
技术实现思路
本申请为解决技术问题所采用的技术方案是提供一种建立标点预测模型的方法,包括:获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。本申请为解决技术问题所采用的技术方案是提供一种建立标点预测模型的装置,包括:获取单元,用于获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;编码单元,用于将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;解码单元,用于将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;确定单元,用于确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;训练单元,用于根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。一种电子设备,其特征在于,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述方法。一种存储有计算机指令的非瞬时计算机可读存储介质,其特征在于,所述计算机指令用于使所述计算机执行上述方法。上述申请中的一个实施例具有如下优点或有益效果:本申请能够提升基于transformer模型所训练得到的标点预测模型预测标点的准确度,并且能够实现连续标点的预测,从而具有更好的扩展性。因为采用了在训练过程中由transformer模型中的解码组件根据相应的输入进行两次处理的技术手段,所以克服了现有技术中由于发生标点预测错误所导致的降低transformer模型中训练预测时的不匹配程度的技术问题,实现了提升标点预测模型预测标点的准确度的技术效果。上述可选方式所具有的其他效果将在下文中结合具体实施例加以说明。附图说明附图用于更好地理解本方案,不构成对本申请的限定。其中:图1是根据本申请第一实施例的示意图;图2是根据本申请第二实施例的示意图;图3是根据本申请第三实施例的示意图;图4是根据本申请第四实施例的示意图;图5是根据本申请第五实施例的示意图;图6是用来实现本申请实施例的建立标点预测模型的方法的电子设备的框图。具体实施方式以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本申请第一实施例的示意图。如图1中所示,本实施例的建立标点预测模型的方法,具体可以包括如下步骤:S101、获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;S102、将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;S103、将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;S104、确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;S105、根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。本实施例的建立标点预测模型的方法,通过在训练过程中采用由transformer模型中的解码组件根据相应的输入进行两次处理的方式,能够降低原transformer模型在训练与预测时的不匹配程度,提升了训练所得到的标点预测模型预测标点的准确度;且由于保持了原始transformer模型的Encoder-Decoder结构,使得标点预测模型的输入和输出不存在长度限制,能够实现连续标点的预测,使得标点预测模型具有更好的扩展性。本实施例执行S101所获取的对应无标点文本的标点标注结果,即为对无标点文本中的标点进行标注之后所得到的含有标点的文本。举例来说,若所获取的无标点文本为“你好需要帮忙吗”,则对应该无标点文本的标点标注结果为“你好,需要帮忙吗?”。本实施例在执行S101获取了包含多个无标点文本以及各无标点文本对应的标点标注结果作为训练数据之后,即可针对训练数据中的每个无标点文本及其对应的标点标注结果,分别执行S102、S103、S104以及S105,实现根据所获取的训练数据完成transformer模型的训练,从而得到标点预测模型。本实施例执行S102将无标点文本作为transformer模型中编码组件的输入,得到由解码组件输出的解码结果。其中,本实施例得到的编码结果为对应无标点文本的向量序列。本实施例执行S102得到对应无标点文本的编码结果时的具体过程为:对无标点文本中的每个字进行Embedding(嵌入)处理之后,进行位置编码;将每个字的位置编码结果输入包含多个编码器的编码组件,其中每个编码器分别包含自注意力层与前馈网络层,将经过编码组件中全部编码器处理之后所得到的向量序本文档来自技高网...

【技术保护点】
1.一种建立标点预测模型的方法,包括:/n获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;/n将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;/n将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;/n确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;/n根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。/n

【技术特征摘要】
1.一种建立标点预测模型的方法,包括:
获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;
将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;
将无标点文本对应的标点标注结果与所述编码结果输入transformer模型中的解码组件,得到所述解码组件输出的解码结果;
确定所述解码结果对应的预测序列,并根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列;
根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件,将编码组件以及训练得到的解码组件作为标点预测模型。


2.根据权利要求1所述的方法,其中,所述根据所述预测序列与所述无标点文本对应的标点标注结果,得到训练标签序列包括:
将所述预测序列与所述无标点文本对应的标点标注结果进行比较,确定预测错误类型;
利用与所述预测错误类型对应的采样方法对所述解码结果进行处理,得到所述训练标签序列。


3.根据权利要求2所述的方法,其中,所述利用与所述预测错误类型对应的采样方法对所述解码结果进行处理,得到所述训练标签序列包括:
响应于所述预测错误类型为标点删除,使用已删除的标点替换所述解码结果中对应所删除标点的位置处的特定标签,得到所述训练标签序列。


4.根据权利要求2所述的方法,其中,所述利用与所述预测错误类型对应的采样方法对所述解码结果进行处理,得到所述训练标签序列包括:
响应于所述预测错误类型为标点插入,使用特定标签替换所述解码结果中所增加的标点,得到所述训练标签序列。


5.根据权利要求1所述的方法,其中,所述根据所述编码结果、所述预测序列与所述训练标签序列,训练所述解码组件包括:
将所述编码结果与所述预测序列作为所述解码组件的输入,得到所述解码组件的输出;
根据所述训练标签序列与所述解码组件的输出,调整所述解码组件中的参数,直至所述解码组件收敛。


6.根据权利要求1所述的方法,还包括,
设置对应于所述解码组件包含的各解码器中掩码自注意力层的第一矩阵,以及设置对应于所述解码组件包含的各解码器中自注意力层的第二矩阵;
结合所述第一矩阵完成各解码器中所述掩码自注意力层的自注意力计算,以及结合所述第二矩阵完成各解码器中所述自注意力层的自注意力计算。


7.根据权利要求6所述的方法,还包括,
设置对应于所述编码组件包含的各编码器中自注意力层的第三矩阵;
结合所述第三矩阵完成各编码器中所述自注意力层的自注意力计算。


8.一种建立标点预测模型的装置,包括:
获取单元,用于获取训练数据,所述训练数据包含多个无标点文本以及各无标点文本对应的标点标注结果;
编码单元,用于将无标点文本输入transformer模型中的编码组件,得到所述编码组件输出的编码结果;
解码单元,用于将无标点文本对应的标点标注结果与所...

【专利技术属性】
技术研发人员:梁鸣心付晓寅张辽
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1