变换模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号:22022947 阅读:35 留言:0更新日期:2019-09-04 01:31
本发明专利技术实施例提出一种变换模型训练方法、装置、设备和存储介质。该变换模型训练方法包括:获取包括对话数据的预训练样本;利用所述对话数据,生成输入特征和预训练目标;利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型。本发明专利技术实施例利用对话数据训练变换模型,可以提高变换模型在语义表示的预测准确性。并且,利用对话数据对初始变换模型进行训练得到预训练变换模型后,再利用预训练变化模型训练具体应用场景所需的变换模型,能够提高变换模型训练的收敛速度。

TRANSFORMATION MODEL TRAINING METHODS, EQUIPMENT, EQUIPMENT AND STORAGE MEDIA

【技术实现步骤摘要】
变换模型训练方法、装置、设备和存储介质
本专利技术涉及数据处理
,尤其涉及一种变换模型训练方法、装置、设备和存储介质。
技术介绍
很多机器学习任务需要利用监督数据来实现,少量的监督数据无法满足当前大规模深度学习模型的训练需求。但是,人工标注的监督数据有可能出现噪声,比如,因为个人因素导致的分类标准不确定等。利用变换(transformer)模型作为网络结构,对于无监督任务,利用未经过人工标注的数据可以进行训练。但是,目前transformer模型训练过程的收敛速度慢,耗时长,并且模型预测准确性有待提高。
技术实现思路
本专利技术实施例提供一种变换模型训练方法、装置、设备和存储介质,以解决现有技术中的一个或多个技术问题。第一方面,本专利技术实施例提供了一种变换模型训练方法,包括:获取包括对话数据的预训练样本;利用所述对话数据,生成输入特征和预训练目标;利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型。在一种实施方式中,该方法还包括:利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,得到目标任务的变换模型。在一种实施方式中,利用所述对话数据,生成输入特征和预训练目标,包括:利用词片段切分算法对所述对话数据中的对话对进行切分,得到多个词片段;获取每个所述词片段的位置嵌入信息和对话嵌入信息;从多个所述词片段中选择部分内容作为所述预训练目标;对从多个所述词片段中所选择的内容进行遮盖处理,得到词嵌入信息;将所述词嵌入信息、所述位置嵌入信息和所述对话嵌入信息作为所述输入特征。在一种实施方式中,利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型,包括:利用所述输入特征、所述预训练目标、对话回复损失和遮盖语言模型损失对所述初始变换模型进行训练,对所述初始变换模型的初始参数进行调整;在所述对话回复损失和所述遮盖语言模型损失不再减小的情况下,得到所述预训练变换模型。在一种实施方式中,利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,得到目标任务的变换模型,包括:利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,对所述预训练变换模型的预训练参数进行调整;在所述目标任务损失不再减小的情况下,得到所述目标任务的变换模型。第二方面,本专利技术实施例提供了一种变换模型训练装置,包括:获取模块,用于获取包括对话数据的预训练样本;生成模块,用于利用所述对话数据,生成输入特征和预训练目标;第一训练模块,用于利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型。在一种实施方式中,该装置还包括:第二训练模块,用于利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,得到目标任务的变换模型。在一种实施方式中,所述生成模块包括:切分子模块,用于利用词片段切分算法对所述对话数据中的对话对进行切分,得到多个词片段;获取子模块,用于获取每个所述词片段的位置嵌入信息和对话嵌入信息;选择子模块,用于从多个所述词片段中选择部分内容作为所述预训练目标;遮盖子模块,用于对从多个所述词片段中所选择的内容进行遮盖处理,得到词嵌入信息;输入子模块,用于将所述词嵌入信息、所述位置嵌入信息和所述对话嵌入信息作为所述输入特征。在一种实施方式中,所述第一训练模块还用于利用所述输入特征、所述预训练目标、对话回复损失和遮盖语言模型损失对所述初始变换模型进行训练,对所述初始变换模型的初始参数进行调整;在所述对话回复损失和所述遮盖语言模型损失不再减小的情况下,得到所述预训练变换模型。在一种实施方式中,所述第二训练模块还用于利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,对所述预训练变换模型的预训练参数进行调整;在所述目标任务损失不再减小的情况下,得到所述目标任务的变换模型。第三方面,本专利技术实施例提供了一种变换模型训练设备,所述设备的功能可以通过硬件实现,也可以通过硬件执行相应的软件实现。所述硬件或软件包括一个或多个与上述功能相对应的模块。在一个可能的设计中,所述设备的结构中包括处理器和存储器,所述存储器用于存储支持所述设备执行上述变换模型训练方法的程序,所述处理器被配置为用于执行所述存储器中存储的程序。所述设备还可以包括通信接口,用于与其他设备或通信网络通信。第四方面,本专利技术实施例提供了一种计算机可读存储介质,用于存储变换模型训练设备所用的计算机软件指令,其包括用于执行上述变换模型训练方法所涉及的程序。上述技术方案中的一个技术方案具有如下优点或有益效果:利用对话数据训练变换模型,可以提高变换模型在语义表示尤其是口语化表示等的预测准确性。并且,利用对话数据对初始变换模型进行训练,可以得到中间状态的预训练变换模型,后续,再利用预训练变化模型训练具体应用场景所需的变换模型时,能够提高变换模型训练的收敛速度。上述概述仅仅是为了说明书的目的,并不意图以任何方式进行限制。除上述描述的示意性的方面、实施方式和特征之外,通过参考附图和以下的详细描述,本专利技术进一步的方面、实施方式和特征将会是容易明白的。附图说明在附图中,除非另外规定,否则贯穿多个附图相同的附图标记表示相同或相似的部件或元素。这些附图不一定是按照比例绘制的。应该理解,这些附图仅描绘了根据本专利技术公开的一些实施方式,而不应将其视为是对本专利技术范围的限制。图1示出根据本专利技术实施例的变换模型训练方法的流程图。图2示出根据本专利技术实施例的变换模型训练方法的流程图。图3示出根据本专利技术实施例的变换模型训练方法的流程图。图4示出根据本专利技术实施例的变换模型训练方法的流程图。图5示出根据本专利技术实施例的变换模型训练方法中语义相似度的示例图。图6示出根据本专利技术实施例的变换模型训练方法的应用示例的示意图。图7示出根据本专利技术实施例的变换模型训练装置的结构框图。图8示出根据本专利技术实施例的变换模型训练装置的结构框图。图9示出根据本专利技术实施例的变换模型训练设备的结构框图。具体实施方式在下文中,仅简单地描述了某些示例性实施例。正如本领域技术人员可认识到的那样,在不脱离本专利技术的精神或范围的情况下,可通过各种不同方式修改所描述的实施例。因此,附图和描述被认为本质上是示例性的而非限制性的。图1示出根据本专利技术实施例的变换模型训练方法的流程图。如图1所示,该方法包括:步骤S11、获取包括对话数据的预训练样本。步骤S12、利用所述对话数据,生成输入特征和预训练目标。步骤S13、利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型。在一个示例中,变换(transformer)模型可以包括编码器(encoder)架构。编码器可以包括自注意力层和前馈神经网络。自注意力层可以用于在关注当前的词的情况下,还可以获取到当前词在上下文的语义。在本实施例中,训练所用的语料即预训练样本可以包括多源数据知识,包括对话数据、百科数据和新闻数据等。其中,百科数据可以包括从各种百科知识网页上获取的百科类文章等。新闻数据可以包括从各种新闻网页上获取的新闻资讯等。对话数据可以包括从各种论坛网页中获取的对话类数据。可以采用网络爬虫等方式从网页上爬取语料。本专利技术实施例中,利用对话数据训练变换模型,可以提高变换模型在本文档来自技高网...

【技术保护点】
1.一种变换模型训练方法,其特征在于,包括:获取包括对话数据的预训练样本;利用所述对话数据,生成输入特征和预训练目标;利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型。

【技术特征摘要】
1.一种变换模型训练方法,其特征在于,包括:获取包括对话数据的预训练样本;利用所述对话数据,生成输入特征和预训练目标;利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型。2.根据权利要求1所述的方法,其特征在于,还包括:利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,得到目标任务的变换模型。3.根据权利要求1所述的方法,其特征在于,利用所述对话数据,生成输入特征和预训练目标,包括:利用词片段切分算法对所述对话数据中的对话对进行切分,得到多个词片段;获取每个所述词片段的位置嵌入信息和对话嵌入信息;从多个所述词片段中选择部分内容作为所述预训练目标;对从多个所述词片段中所选择的内容进行遮盖处理,得到词嵌入信息;将所述词嵌入信息、所述位置嵌入信息和所述对话嵌入信息作为所述输入特征。4.根据权利要求3所述的方法,其特征在于,利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练,得到预训练变换模型,包括:利用所述输入特征、所述预训练目标、对话回复损失和遮盖语言模型损失对所述初始变换模型进行训练,对所述初始变换模型的初始参数进行调整;在所述对话回复损失和所述遮盖语言模型损失不再减小的情况下,得到所述预训练变换模型。5.根据权利要求2所述的方法,其特征在于,利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,得到目标任务的变换模型,包括:利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练,对所述预训练变换模型的预训练参数进行调整;在所述目标任务损失不再减小的情况下,得到所述目标任务的变换模型。6.一种变换模型训练装置,其特征在于,包括:获取模块,用于获取包括对话数据的预训练样本;生成模块,用于利用所述对话数据,生成输入特征和预训练目标;第一训...

【专利技术属性】
技术研发人员:陈徐屹何径舟冯仕堃朱丹翔朱志凡
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1