数据处理方法、装置、计算设备和介质制造方法及图纸

技术编号:19009577 阅读:28 留言:0更新日期:2018-09-22 09:23
本发明专利技术的实施方式提供了一种数据处理方法,包括:基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的;使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。通过在第一模型的基础上构建第二模型,并且使用第一数据集和第二数据集共同训练第二模型,实现了模型迁移,使得只需要对第二数据集中较少的数据进行标注即可完成对第二模型的训练,从而显著地减少了人工标注的投入,节省人力物力,并且提高了模型的识别效果。此外,本发明专利技术的实施方式提供了一种数据处理装置、计算设备以及计算机可读存储介质。

Data processing method, device, computing device and medium

An embodiment of the present invention provides a data processing method, including: constructing a second model based on the model parameters of the first model, which are obtained by training the first model with the first data set, and training the second model with the first data set and the second data set. Wherein, the second data set is different from the first data set. By constructing the second model on the basis of the first model and training the second model with the first data set and the second data set, the model migration is realized, which makes it possible to complete the training of the second model only by annotating the less data in the second data set, thus significantly reducing the input of manual annotation. It saves manpower and material resources and improves the recognition effect of the model. In addition, the embodiment of the present invention provides a data processing device, a computing device and a computer readable storage medium.

【技术实现步骤摘要】
数据处理方法、装置、计算设备和介质
本专利技术的实施方式涉及计算机
,更具体地,本专利技术的实施方式涉及一种数据处理方法、装置、计算设备和介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着信息时代的蓬勃发展,互联网已经成为人们获取信息、沟通交流以及休闲娱乐的重要工具。然而,互联网中往往存在各种各样的垃圾消息,例如,垃圾广告等。这些垃圾广告不仅给用户浏览带来不便,极大地影响用户的上网体验,同时还会给用户造成不必要的流量浪费,增加耗电。此外,有些垃圾消息还会携带不安全因素(例如木马病毒等),给用户造成巨大的损失。可以理解,为了拦截广告等垃圾消息,提高用户体验,首先需要对其进行识别。目前,已经出现一些广告识别的方法,例如,基于传统图像特征的广告图像识别方法,通过对大量的图像进行标注作为样本图像,进而训练模型,从而达到广告图像识别的目的。
技术实现思路
但是,上述现有技术中的广告图像识别方法对于训练样本数量要求较多,需要投入大量的人力对样本图像进行标注,进而训练模型。然而,随着广告图像样式的不断改变,原始模型无法准确识别变化后的广告图像,此时,又需要重新采集大量样本数据并人工对其进行标注训练新的模型以适应新的广告图像样式,该过程需要投入大量的人力,效率较低。为此,非常需要一种改进的数据处理方法,可以降低样本数据的要求,减少对样本数据的标注,使用少量的标注数据和大量的未标注数据训练模型,减少人力的投入,提高效率。在本上下文中,本专利技术的实施方式期望提供一种数据处理方法、数据处理系统、计算设备和计算机可读存储介质。在本专利技术实施方式的第一方面中,提供了一种数据处理方法,包括:基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的,以及使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。在本专利技术的一个实施例中,上述第二数据集包括已标注数据集和未标注数据集,所述未标注数据集包括图像数据,所述已标注数据集包括图像数据和标注数据,其中,所述标注数据用于表征相应的图像数据所属的分类。在本专利技术的另一实施例中,上述第二数据集中的已标注的图像数据占比小于10%。在本专利技术的又一个实施例中,上述第二模型包括多个损失函数。上述训练第二模型包括:基于所述多个损失函数优化所述第二模型,使所述第二模型收敛。在本专利技术的再一个实施例中,上述第二模型包括卷积神经网络,所述卷积神经网络包含第一损失函数。在本专利技术的再一个实施例中,上述第二模型的卷积神经网络的初始权值与所述第一模型的模型参数相对应。在本专利技术的再一个实施例中,上述第二模型还包括基于第二损失函数构建的域分类器。在本专利技术的再一个实施例中,上述第二模型还包括第一软化单元和第二软化单元,基于所述第一软化单元和所述第二软化单元构建第三损失函数。在本专利技术的再一个实施例中,上述基于所述多个损失函数优化所述第二模型,使所述第二模型收敛,包括:对所述第一损失函数、第二损失函数以及第三损失函数赋予权重,基于赋予权重后的所述第一损失函数、第二损失函数以及第三损失函数优化所述第二模型,使得所述第二模型收敛。在本专利技术实施方式的第二方面中,提供了一种数据处理装置,包括模型构建模块和模型训练模块。其中,模型构建模块基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的。模型训练模块使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。在本专利技术的一个实施例中,上述第二数据集包括已标注数据集和未标注数据集,所述未标注数据集包括图像数据,所述已标注数据集包括图像数据和标注数据,其中,所述标注数据用于表征相应的图像数据所属的分类。在本专利技术的另一实施例中,上述第二数据集中的已标注的图像数据占比小于10%。在本专利技术的又一个实施例中,上述第二模型包括多个损失函数。上述训练第二模型包括:基于所述多个损失函数优化所述第二模型,使所述第二模型收敛。在本专利技术的再一个实施例中,上述第二模型包括卷积神经网络,所述卷积神经网络包含第一损失函数。在本专利技术的再一个实施例中,上述第二模型的卷积神经网络的初始权值与所述第一模型的模型参数相对应。在本专利技术的再一个实施例中,上述第二模型还包括基于第二损失函数构建的域分类器。在本专利技术的再一个实施例中,上述第二模型还包括第一软化单元和第二软化单元,基于所述第一软化单元和所述第二软化单元构建第三损失函数。在本专利技术的再一个实施例中,上述基于所述多个损失函数优化所述第二模型,使所述第二模型收敛,包括:对所述第一损失函数、第二损失函数以及第三损失函数赋予权重,基于赋予权重后的所述第一损失函数、第二损失函数以及第三损失函数优化所述第二模型,使得所述第二模型收敛。在本专利技术实施方式的第三方面中,提供了一种计算设备,包括:一个或多个存储器,存储有可执行指令;以及一个或多个处理器,执行所述可执行指令,以实现上述实施例中任一项的数据处理方法。。在本专利技术实施方式的第四方面中,提供了一种计算机可读存储介质,其上存储有可执行指令,所述指令在被处理器执行时实现上述实施例中任一项的数据处理方法。根据本专利技术实施方式的数据处理方法和数据处理装置,通过在第一模型的基础上构建第二模型,并且使用第一数据集和第二数据集共同训练第二模型,实现了模型迁移,使得只需要对第二数据集中较少的数据进行标注即可完成对第二模型的训练,从而在保证模型的识别效果的前提下,显著地减少了人工标注的投入,提高了效率。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1示意性地示出了根据本专利技术实施方式的数据处理方法和数据处理装置的应用场景;图2示意性地示出了根据本专利技术实施方式的数据处理方法的流程图;图3示意性地示出了根据本专利技术实施方式的第二模型的示意图;图4示意性示出了根据本专利技术实施例的计算机可读介质的示意图;图5示意性地示出了根据本专利技术实施方式的数据处理装置的框图;图6示意性示出了根据本专利技术实施例的计算设备的示意图。在附图中,相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。根据本专利技术的实施方式,提出了一种数据处理的方法、介质、装置和计算设备。在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。下面参考本专利技术的若干代表性实施方式,详细阐释本专利技术的原理和精神。专利技术概述本专利技术人本文档来自技高网...
数据处理方法、装置、计算设备和介质

【技术保护点】
1.一种数据处理方法,包括:基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的;使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。

【技术特征摘要】
1.一种数据处理方法,包括:基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的;使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。2.根据权利要求1所示的方法,其中,所述第二数据集包括已标注数据集和未标注数据集,所述未标注数据集包括图像数据,所述已标注数据集包括图像数据和标注数据,其中,所述标注数据用于表征相应的图像数据所属的分类。3.根据权利要求2所示的方法,其中,所述第二数据集中的已标注的图像数据占比小于10%。4.根据权利要求1所示的方法,其中:所述第二模型包括多个损失函数;所述训练第二模型包括:基于所述多个损失函数优化所述第二模型,使所述第二模型收敛。5.根据权利要求4所示的方法,其中,所述第二模型包括卷积神经网络,所述卷...

【专利技术属性】
技术研发人员:徐国智温翔丛林李晓燕朱浩齐
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1