变换模型训练方法、装置、设备和存储介质制造方法及图纸

技术编号：22022947 阅读：35 留言：0更新日期：2019-09-04 01:31

本发明专利技术实施例提出一种变换模型训练方法、装置、设备和存储介质。该变换模型训练方法包括：获取包括对话数据的预训练样本；利用所述对话数据，生成输入特征和预训练目标；利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练，得到预训练变换模型。本发明专利技术实施例利用对话数据训练变换模型，可以提高变换模型在语义表示的预测准确性。并且，利用对话数据对初始变换模型进行训练得到预训练变换模型后，再利用预训练变化模型训练具体应用场景所需的变换模型，能够提高变换模型训练的收敛速度。

TRANSFORMATION MODEL TRAINING METHODS, EQUIPMENT, EQUIPMENT AND STORAGE MEDIA

全部详细技术资料下载

【技术实现步骤摘要】
变换模型训练方法、装置、设备和存储介质
本专利技术涉及数据处理
，尤其涉及一种变换模型训练方法、装置、设备和存储介质。
技术介绍
很多机器学习任务需要利用监督数据来实现，少量的监督数据无法满足当前大规模深度学习模型的训练需求。但是，人工标注的监督数据有可能出现噪声，比如，因为个人因素导致的分类标准不确定等。利用变换(transformer)模型作为网络结构，对于无监督任务，利用未经过人工标注的数据可以进行训练。但是，目前transformer模型训练过程的收敛速度慢，耗时长，并且模型预测准确性有待提高。
技术实现思路
本专利技术实施例提供一种变换模型训练方法、装置、设备和存储介质，以解决现有技术中的一个或多个技术问题。第一方面，本专利技术实施例提供了一种变换模型训练方法，包括：获取包括对话数据的预训练样本；利用所述对话数据，生成输入特征和预训练目标；利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练，得到预训练变换模型。在一种实施方式中，该方法还包括：利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练，得到目标任务的变换模型。在一种实施方式中，利用所述对话数据，生成输入特征和预训练目标，包括：利用词片段切分算法对所述对话数据中的对话对进行切分，得到多个词片段；获取每个所述词片段的位置嵌入信息和对话嵌入信息；从多个所述词片段中选择部分内容作为所述预训练目标；对从多个所述词片段中所选择的内容进行遮盖处理，得到词嵌入信息；将所述词嵌入信息、所述位置嵌入信息和所述对话嵌入信息作为所述输入特征。在一种实施方式中，利用所述输入特征、所述预...

【技术保护点】
1.一种变换模型训练方法，其特征在于，包括：获取包括对话数据的预训练样本；利用所述对话数据，生成输入特征和预训练目标；利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练，得到预训练变换模型。

【技术特征摘要】
1.一种变换模型训练方法，其特征在于，包括：获取包括对话数据的预训练样本；利用所述对话数据，生成输入特征和预训练目标；利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练，得到预训练变换模型。2.根据权利要求1所述的方法，其特征在于，还包括：利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练，得到目标任务的变换模型。3.根据权利要求1所述的方法，其特征在于，利用所述对话数据，生成输入特征和预训练目标，包括：利用词片段切分算法对所述对话数据中的对话对进行切分，得到多个词片段；获取每个所述词片段的位置嵌入信息和对话嵌入信息；从多个所述词片段中选择部分内容作为所述预训练目标；对从多个所述词片段中所选择的内容进行遮盖处理，得到词嵌入信息；将所述词嵌入信息、所述位置嵌入信息和所述对话嵌入信息作为所述输入特征。4.根据权利要求3所述的方法，其特征在于，利用所述输入特征、所述预训练目标和预训练损失对初始变换模型进行训练，得到预训练变换模型，包括：利用所述输入特征、所述预训练目标、对话回复损失和遮盖语言模型损失对所述初始变换模型进行训练，对所述初始变换模型的初始参数进行调整；在所述对话回复损失和所述遮盖语言模型损失不再减小的情况下，得到所述预训练变换模型。5.根据权利要求2所述的方法，其特征在于，利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练，得到目标任务的变换模型，包括：利用目标任务训练样本和目标任务损失对所述预训练变换模型进行训练，对所述预训练变换模型的预训练参数进行调整；在所述目标任务损失不再减小的情况下，得到所述目标任务的变换模型。6.一种变换模型训练装置，其特征在于，包括：获取模块，用于获取包括对话数据的预训练样本；生成模块，用于利用所述对话数据，生成输入特征和预训练目标；第一训...

【专利技术属性】
技术研发人员：陈徐屹，何径舟，冯仕堃，朱丹翔，朱志凡，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人