An embodiment of the present invention provides a data processing method, including: constructing a second model based on the model parameters of the first model, which are obtained by training the first model with the first data set, and training the second model with the first data set and the second data set. Wherein, the second data set is different from the first data set. By constructing the second model on the basis of the first model and training the second model with the first data set and the second data set, the model migration is realized, which makes it possible to complete the training of the second model only by annotating the less data in the second data set, thus significantly reducing the input of manual annotation. It saves manpower and material resources and improves the recognition effect of the model. In addition, the embodiment of the present invention provides a data processing device, a computing device and a computer readable storage medium.
【技术实现步骤摘要】
数据处理方法、装置、计算设备和介质
本专利技术的实施方式涉及计算机
,更具体地,本专利技术的实施方式涉及一种数据处理方法、装置、计算设备和介质。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。随着信息时代的蓬勃发展,互联网已经成为人们获取信息、沟通交流以及休闲娱乐的重要工具。然而,互联网中往往存在各种各样的垃圾消息,例如,垃圾广告等。这些垃圾广告不仅给用户浏览带来不便,极大地影响用户的上网体验,同时还会给用户造成不必要的流量浪费,增加耗电。此外,有些垃圾消息还会携带不安全因素(例如木马病毒等),给用户造成巨大的损失。可以理解,为了拦截广告等垃圾消息,提高用户体验,首先需要对其进行识别。目前,已经出现一些广告识别的方法,例如,基于传统图像特征的广告图像识别方法,通过对大量的图像进行标注作为样本图像,进而训练模型,从而达到广告图像识别的目的。
技术实现思路
但是,上述现有技术中的广告图像识别方法对于训练样本数量要求较多,需要投入大量的人力对样本图像进行标注,进而训练模型。然而,随着广告图像样式的不断改变,原始模型无法准确识别变化后的广告图像,此时,又需要重新采集大量样本数据并人工对其进行标注训练新的模型以适应新的广告图像样式,该过程需要投入大量的人力,效率较低。为此,非常需要一种改进的数据处理方法,可以降低样本数据的要求,减少对样本数据的标注,使用少量的标注数据和大量的未标注数据训练模型,减少人力的投入,提高效率。在本上下文中,本专利技术的实施方式期望提供一种数据处理方法、数据处 ...
【技术保护点】
1.一种数据处理方法,包括:基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的;使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。
【技术特征摘要】
1.一种数据处理方法,包括:基于第一模型的模型参数构建第二模型,所述第一模型的模型参数是通过使用第一数据集训练第一模型而得到的;使用所述第一数据集和第二数据集共同训练所述第二模型,其中,所述第二数据集与第一数据集不同。2.根据权利要求1所示的方法,其中,所述第二数据集包括已标注数据集和未标注数据集,所述未标注数据集包括图像数据,所述已标注数据集包括图像数据和标注数据,其中,所述标注数据用于表征相应的图像数据所属的分类。3.根据权利要求2所示的方法,其中,所述第二数据集中的已标注的图像数据占比小于10%。4.根据权利要求1所示的方法,其中:所述第二模型包括多个损失函数;所述训练第二模型包括:基于所述多个损失函数优化所述第二模型,使所述第二模型收敛。5.根据权利要求4所示的方法,其中,所述第二模型包括卷积神经网络,所述卷...
【专利技术属性】
技术研发人员:徐国智,温翔,丛林,李晓燕,朱浩齐,
申请(专利权)人:网易杭州网络有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。