【技术实现步骤摘要】
深度学习模型的训练方法、预测方法和装置
本申请涉及机器学习、人工智能、自然语言处理
,尤其涉及一种深度学习模型的训练方法、预测方法和装置。
技术介绍
近年来,深度学习(DeepLearning)在计算机视觉(ComputerVision,CV)、自然语言处理(NaturalLanguageProcessing,NLP)等领域均取得了长足的进展。深度学习模型的良好效果建立在大量高质量标注数据的基础之上,数据量越大,训练出的深度学习模型越容易泛化且切合实际,但在很多任务和领域中,标注数据稀少且标注成本很高,故此又提出了深度迁移学习模型。深度迁移学习主要思想是将在源域上训练好的预训练模型迁移到目标域中,通过微调的方式完成目标域的任务。虽然深度迁移学习在小样本预测上取得了很大发展,但是在大量的实际应用中仍然不能完全替代人工特征。虽然深度学习方法能够自动提取出难以由人工规则得出的数据特征,但其过程属于黑盒模型,这就意味着对于某些可由人工规则提取出的特征,深度迁移学习模型可能无法保证能将该特征提取出来。因此又提出了将人工特 ...
【技术保护点】
1.一种深度学习模型的训练方法,其特征在于,所述方法包括:/n基于语料语句训练极端梯度提升模型xgboost模型;/n基于语料语句训练基于Transformer的双向编码器表示Bert模型;/n将语料语句构建的人工特征样本数据作为xgboost模型的输入,得到包含拟合特征的第一预测数据;/n将所述第一预测数据作为Transformer模型的输入,对Transformer模型进行训练,所述Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层;/n将语料语句作为Bert模型的输入,将所述语料语句构建的人工特征样本数据经所述xgboost模型的 ...
【技术特征摘要】
1.一种深度学习模型的训练方法,其特征在于,所述方法包括:
基于语料语句训练极端梯度提升模型xgboost模型;
基于语料语句训练基于Transformer的双向编码器表示Bert模型;
将语料语句构建的人工特征样本数据作为xgboost模型的输入,得到包含拟合特征的第一预测数据;
将所述第一预测数据作为Transformer模型的输入,对Transformer模型进行训练,所述Transformer模型包括依次连接的卷积层、多头注意力模块、前向传播模块和平均池化层;
将语料语句作为Bert模型的输入,将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer模型的输入,将所述语料语句对应的标签作为所述Bert模型和所述Transformer模型的共同输出,对所述Bert模型和所述Transformer模型进行联合训练,所述Bert模型与所述Transformer模型共同连接拼接层后输出。
2.如权利要求1所述的方法,其特征在于,所述xgboost模型连接在所述Transformer模型之前,所述xgboost模型之前连接人工特征输入层,所述拼接层之后连接归一化层。
3.如权利要求2所述的方法,其特征在于,所述多头注意力模块包括多头注意力层、残差连接层和归一化层;所述前向传播模块包括前向传播层、残差连接层和归一化层。
4.如权利要求3所述的方法,其特征在于,所述将所述第一预测数据作为Transformer模型的输入,对Transformer模型进行训练,包括:
将所述第一预测数据输入所述卷积层进行卷积操作;
将卷积操作结果输入所述多头注意力层,并将所述卷积操作结果与所述多头注意力层的输出相加且归一化,得到第一输出;
将所述第一输出输入所述前向传播层,并将所述第一输出与所述前向传播层的输出相加且归一化,得到第二输出;
将所述第二输出输入所述平均池化层,得到第三输出;
基于所述第三输出和所述第一预测数据降维得到的特征向量数据对所述Transformer模型进行训练,得到训练后的所述Transformer模型。
5.如权利要求3所述的方法,其特征在于,所述将语料语句作为Bert模型的输入,将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据作为所述Transformer模型的输入,将所述语料语句对应的标签作为所述Bert模型和所述Transformer模型的共同输出,对所述Bert模型和所述Transformer模型进行联合训练,包括:
将语料语句输入所述Bert模型得到第一预测结果,将所述语料语句构建的人工特征样本数据经所述xgboost模型的预测数据输入所述Transformer模型得到第二预测结果;
将所述第一预测结果和所述第二预测结果进行拼接;
将拼接后的预测结果输入归一化层,得到模型预测结果;
基于所述模型预测结果与所述语料语句对应的标签对所述Transformer模型和所述深度迁移学习模型进行联合训练,得到所述深度学习模型。
6.一种深度学习模型的预测方法,其特征在于,所述深度学习模型包括并行的BERT模型和人工特征模型,所述人工特征模型包括Transformer模型和XgBoost模型,所述方法包括:
获取语句语料;
将所述语句语料中的目标语句输入XgBoost模型中,以得到包括所述XgBoo...
【专利技术属性】
技术研发人员:苏萌,王然,刘译璟,孙伟,刘钰,苏海波,高体伟,
申请(专利权)人:北京百分点信息科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。