训练装置、方法、设备以及计算机可读存储介质制造方法及图纸

技术编号:35328601 阅读:37 留言:0更新日期:2022-10-26 11:44
本公开涉及训练装置、方法、设备以及计算机可读存储介质。该装置包括第一特征获取模块,被配置为基于正样本数据集,利用所述第一循环模型获得第一特征;第二特征获取模块,被配置为基于所述第一特征,利用所述第二循环模型获得第二特征;第三特征获取模块,被配置为基于负样本数据集,利用所述第二循环模型生成第三特征;以及训练模块,被配置为利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型,其中,所述第一损失函数是基于所述第一特征和所述第三特征、或基于所述第二特征和所述第三特征构建的,所述第二损失函数是基于所述第二特征与所述正样本数据集构建的。构建的。构建的。

【技术实现步骤摘要】
训练装置、方法、设备以及计算机可读存储介质


[0001]本公开涉及模型训练领域,并且具体涉及一种训练装置方法、设备以及计算机可读存储介质。

技术介绍

[0002]深度神经网络是一种大规模、多参数优化的工具。依靠大量的训练数据,深度神经网络能够通过学习,确定数据中难以总结的隐藏特征,从而完成多项复杂的任务,如人脸检测、图像语义分割、物体检测、动作追踪、自然语言翻译等。
[0003]当前,为了获取用于目标检测的神经网络模型,需要预先使用大量已标注的训练数据对神经网络进行训练。因此,基于深度神经网络的目标检测的性能和效果很大程度依赖所提供的训练数据。通常,所提供的训练数据是正样本训练数据,特别是在循环神经网络(Recurrent Neural Network,RNN)中,很少使用负样本训练数据对神经网络进行训练。

技术实现思路

[0004]鉴于以上问题,本公开提供了一种训练装置方法、设备以及计算机可读存储介质。
[0005]根据本公开的一个方面,提供了一种训练装置,用于训练第一模型,所述第一模型包括第一循环模型和第二循环模型,所述装置包括:第一特征获取模块,被配置为基于正样本数据集,利用所述第一循环模型获得第一特征;第二特征获取模块,被配置为基于所述第一特征,利用所述第二循环模型获得第二特征;第三特征获取模块,被配置为基于负样本数据集,利用所述第二循环模型生成第三特征;以及训练模块,被配置为利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型,其中,所述第一损失函数是基于所述第一特征和所述第三特征、或基于所述第二特征和所述第三特征构建的,所述第二损失函数是基于所述第二特征与所述正样本数据集构建的。
[0006]根据本公开的一个示例,所述第三特征获取模块还被配置为基于所述正样本数据集和所述负样本数据集,利用所述第二循环模型生成所述第三特征。
[0007]根据本公开的一个示例,所述训练模块基于分类函数、利用第一损失函数对所述第一模型进行训练,使得所述第一特征远离基于所述负样本数据集的特征,并靠近所述正样本数据集的特征。
[0008]根据本公开的一个示例,所述第一模型可以应用于文本摘要提取领域,所述负样本数据集的类型包括冗余类型、主题类型、流畅类型、语法类型中的一个或多个,并且所述负样本数据集根据颗粒度划分为字词、单句和多句中的一个。
[0009]根据本公开的一个示例,该训练装置还包括负样本数据集构建模块,被配置为根据所述负样本数据集的颗粒度和类型,按照重复插入、删除、颠倒顺序中的一个或多个方式来构建所述负样本数据集。
[0010]根据本公开的一个方面,提供了一种训练方法,用于训练第一模型,所述第一模型包括第一循环模型和第二循环模型,所述方法包括:基于正样本数据集,利用所述第一循环
模型获得第一特征;基于所述第一特征,利用所述第二循环模型获得第二特征;基于负样本数据集,利用所述第二循环模型生成第三特征;以及利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型,其中,所述第一损失函数是基于所述第一特征和所述第三特征、或基于所述第二特征和所述第三特征构建的,所述第二损失函数是基于所述第二特征与所述正样本数据集构建的。
[0011]根据本公开的一个示例,所述基于负样本数据集,利用所述第二循环模型生成第三特征还包括:基于所述正样本数据集和所述负样本数据集,利用所述第二循环模型生成第三特征。
[0012]根据本公开的一个示例,所述利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型还包括:基于分类函数、利用第一损失函数对所述第一模型进行训练,使得所述第一特征远离基于所述负样本数据集的特征,并靠近所述正样本数据集的特征。
[0013]根据本公开的一个示例,所述第一模型可以应用于文本摘要提取领域,所述负样本数据集的类型包括冗余类型、主题类型、流畅类型、语法类型中的一个或多个,并且所述负样本数据集根据颗粒度划分为字词、单句和多句中的一个。
[0014]根据本公开的一个示例,根据所述负样本数据集的颗粒度和类型,按照重复插入、删除、颠倒顺序中的一个或多个方式来构建所述负样本数据集。
[0015]根据本公开的一个方面,提供了一种训练设备,所述设备包括:处理器;以及存储器,其中存储计算机可读程序指令,其中,在所述计算机可读程序指令被所述处理器运行时执行训练第一模型的训练方法,所述第一模型包括第一循环模型和第二循环模型,所述方法包括:基于正样本数据集,利用所述第一循环模型获得第一特征;基于所述第一特征,利用所述第二循环模型获得第二特征;基于负样本数据集,利用所述第二循环模型生成第三特征;以及利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型,其中,所述第一损失函数是基于所述第一特征和所述第三特征、或基于所述第二特征和所述第三特征构建的,所述第二损失函数是基于所述第二特征与所述正样本数据集构建的。
[0016]根据本公开的一个方面,提供了一种用于存储计算机可读指令的计算机可读存储介质,所述程序使得计算机执行如上所述的训练方法。
[0017]本公开同时基于正样本训练数据和负样本训练数据对循环模型进行训练来得到目标模型,从而使训练得到的目标模型的效果更好。
附图说明
[0018]通过结合附图对本公开实施例进行更详细的描述,本公开的上述以及其它目的、特征和优势将变得更加明显。附图用来提供对本公开实施例的进一步理解,并且构成说明书的一部分,与本公开实施例一起用于解释本公开,并不构成对本公开的限制。在附图中,相同的参考标号通常代表相同部件或步骤。
[0019]图1是概述根据本公开实施例的神经网络模型的训练方法的应用场景的示意图;
[0020]图2是图示根据本公开实施例的训练装置的功能框图;
[0021]图3是图示根据本公开实施例的第一模型的示例的示意图;
[0022]图4是图示根据本公开实施例的循环神经网络的结构图;
[0023]图5是图示根据本公开实施例的第一特征获取模块和第二特征获取模块的操作示意图;
[0024]图6是图示根据本公开实施例的第三特征获取模块的操作示意图;
[0025]图7是图示根据本公开第一实施例的利用第一损失函数训练第一模型的示意图;
[0026]图8是图示根据本公开第二实施例的利用第一损失函数训练第一模型的示意图;
[0027]图9是图示根据本公开实施例的训练方法的示意图;
[0028]图10是图示根据本公开实施例的训练设备的示意图;
[0029]图11是图示根据本公开实施例的计算机可读存储介质的示意图;
[0030]图12是图示本公开实施例所涉及的电子设备的硬件结构的一例的图。
具体实施方式
[0031]下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅是本公开一部分的实施例,而不是全部的实施例。基于本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练装置,用于训练第一模型,所述第一模型包括第一循环模型和第二循环模型,所述装置包括:第一特征获取模块,被配置为基于正样本数据集,利用所述第一循环模型获得第一特征;第二特征获取模块,被配置为基于所述第一特征,利用所述第二循环模型获得第二特征;第三特征获取模块,被配置为基于负样本数据集,利用所述第二循环模型生成第三特征;以及训练模块,被配置为利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型,其中,所述第一损失函数是基于所述第一特征和所述第三特征、或基于所述第二特征和所述第三特征构建的,所述第二损失函数是基于所述第二特征与所述正样本数据集构建的。2.根据权利要求1所述的训练装置,其中,所述第三特征获取模块还被配置为基于所述正样本数据集和所述负样本数据集,利用所述第二循环模型生成所述第三特征。3.根据权利要求2所述的训练装置,其中,所述训练模块基于分类函数、利用第一损失函数对所述第一模型进行训练,使得所述第一特征远离基于所述负样本数据集的特征,并靠近所述正样本数据集的特征。4.一种训练方法,用于训练第一模型,所述第一模型包括第一循环模型和第二循环模型,所述方法包括:基于正样本数据集,利用所述第一循环模型获得第一特征;基于所述第一特征,利用所述第二循环模型获得第二特征;基于负样本数据集,利用所述第二循环模型生成第三特征;以及利用第一损失函数和第二损失函数对所述第一模型进行训练以获得目标模型,其中,所述第一损失函数是基于所述第一特征和所述第三特征、或基于所述第二特征和所述第三特征构建的,所述第二损失函数是基于所述第二特征与所述正样本数据集构建的。5.根据权利要求4所述的训练方法,其中,所述基于负样本数据集,利用所述第二循环模型生成第三特征还包括:基于所述正样...

【专利技术属性】
技术研发人员:郭垿宏中村一成刘巍李安新陈岚藤本拓吉村建
申请(专利权)人:株式会社NTT都科摩
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1