一种数据处理方法及装置制造方法及图纸

技术编号:24011640 阅读:45 留言:0更新日期:2020-05-02 01:56
本申请提供一种数据处理方法及装置,涉及数据处理技术领域,方法包括:获取第一数据集合、第二数据集合以及第一数据处理模型;基于第一数据处理模型,获得第一向量集合以及第二向量集合;根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;将标注后的第一数据集合作为第二训练数据集合,训练第一数据处理模型,得到第二数据处理模型;基于第二数据处理模型处理第二应用场景中的数据。提高了迁移学习的效率以及准确率。

A data processing method and device

【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术实施例涉及数据处理
,尤其涉及一种数据处理方法及装置。
技术介绍
深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法,通常这些预训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源,迁移学习可以将已习得的强大技能迁移到相关的问题上。迁移学习(TransferLearning)是一种机器学习方法,是把一个领域(源领域)的知识,迁移到另外一个领域(目标领域),使得目标领域能够取得更好的学习效果。现阶段在迁移学习过程上,更多的是考虑怎么样设计微调模型,但是在迁移学习过程中,还需要对目标领域的数据进行标注,现有技术未能考虑如何挑选最合适的目标领域的数据进行标注,使得迁移学习的效率低,准确性差。
技术实现思路
本申请实施例提供一种数据处理方法及装置,在迁移学习过程中挑选最合适的目标领域的数据进行标注,以提高迁移学习的效率以及准确性。一方面,本申请实施例提供一种数据处理方法,所述方法包括:获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合;根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;将迭代终止时的第一数据集合中新增第一数据进行标注,并将标注后的第一数据集合作为第二训练数据集合,训练所述第一数据处理模型,得到第二数据处理模型;基于所述第二数据处理模型处理所述第二应用场景中的数据。一方面,本申请实施例提供一种数据处理装置,包括:获取单元,用于获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;向量化单元,用于基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合;数据调整单元,用于根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;训练单元,用于将迭代终止时的第一数据集合中新增第一数据进行标注,并将标注后的第一数据集合作为第二训练数据集合,训练所述第一数据处理模型,得到第二数据处理模型;处理单元,用于基于所述第二数据处理模型处理所述第二应用场景中的数据。可选的,所述距离为欧氏距离。一方面,本申请实施例提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其中,处理器执行计算机程序时实现上述任一种数据处理方法的步骤。一方面,本申请实施例提供了一种计算机可读存储介质,其存储有可由计算机设备执行的计算机程序,当所述程序在计算机设备上运行时,使得所述计算机设备执行上述任一种数据处理方法的步骤。本申请实施例提供的数据处理方法,通过已标注的第一数据以及未标注的第二数据在已经训练完成的第一数据处理模型中的数据表现,来选择训练第二数据处理模型的第二训练数据集合,具体的,使用第一数据处理模型将第一数据以及第二数据进行向量化,向量化的结果可以认为是第一数据以及第二数据在已经训练完成的第一数据处理模型中的数据表现,然后根据向量化的结果,将能够代表所有数据的部分数据作为第二训练数据集合,将第二训练数据集合进行标注,并通过标注后的第二训练数据集合训练得到第二数据处理模型,实现了将第一数据处理模型迁移到第二数据处理模型中。在本申请实施例中,选择了可以代表全部数据的第二训练数据集合来进行标注,减少了数据标注的工作量,从而提高了迁移学习的效率以及准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请实施例提供的一种数据处理方法的应用场景示意图;图2为本申请实施例提供的一种数据处理方法的流程示意图;图3为本申请实施例提供的一种标注数据的示意图;图4为本申请实施例提供的一种代表数据的示意图;图5为本申请实施例提供的一种标注数据的示意图;图6为本申请实施例提供的一种标注数据的示意图;图7为本申请实施例提供的一种数据处理方法的流程示意图;图8为本申请实施例提供的一种数据处理装置的结构示意图;图9为本申请实施例提供的一种计算机设备的结构示意图。具体实施方式为了使本专利技术的目的、技术方案及有益效果更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。为了方便理解,下面对本申请实施例中涉及的名词进行解释:机器学习(ML,MachineLearning):是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径。机器学习的核心是“使用算法解析数据,从中学习,然后对世界上的某件事情做出决定或预测”。这意味着,与其显式地编写程序来执行某些任务,不如教计算机如何开发一个算法来完成任务。深度学习(DL,DeepLearning):是机器学习领域中一个新的研究方向,它被引入机器学习使其更接近于最初的目标——人工智能(AI,ArtificialIntelligence)。人工智能(AI,ArtificialIntelligence):它是研究、开发用于模拟、延伸和扩展人的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是计算机科学的一个分支,它企图了解智能的实质,并生产出一种新的能本文档来自技高网...

【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;/n基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合;/n根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;/n将迭代终止时的第一数据集合中新增第一数据进行标注,并将标注后的第一数据集合作为第二训练数据集合,训练所述第一数据处理模型,得到第二数据处理模型;/n基于所述第二数据处理模型处理所述第二应用场景中的数据。/n

【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;
基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合;
根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;
将迭代终止时的第一数据集合中新增第一数据进行标注,并将标注后的第一数据集合作为第二训练数据集合,训练所述第一数据处理模型,得到第二数据处理模型;
基于所述第二数据处理模型处理所述第二应用场景中的数据。


2.根据权利要求1所述的方法,其特征在于,所述确定各第二向量与所述第一向量集合之间的相似度包括:
针对每一个第二向量,根据该第二向量与各第一向量之间的向量距离,确定第二向量与所述第一向量集合之间的相似度。


3.根据权利要求2所述的方法,其特征在于,所述根据该第二向量与各第一向量之间的向量距离,确定第二向量与所述第一向量集合之间的相似度,包括:
将该第二向量与各第一向量之间的向量距离的最小值作为该第二向量与所述第一向量集合之间的相似度。


4.根据权利要求1所述的方法,其特征在于,所述将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,包括:
将各相似度中的最大值对应的第二数据调整为第一数据加入到第一数据集合中。


5.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合,包括:
将所述第一数据集合中每个第一数据输入至所述第一数据处理模型中,并将设定网络层的输出结果作为各第一数据的第一向量,将所述第二数据集合中每个第二数据输入至所述第二数据处理模型中,将设定网络层的输出结果作为第二各数据的第二向量,根据各第一向量构成所述第一向量集合,根据各第二向量构成所述第二向量集合,所述设定网络层是根据所述第一数据处理模型的模型结构以及所述第二应用场景确定的。


6.根据权利要求5所述的方法,其特征在于,所述第一数据处理模型为第一图像分割模型,所述设定网络层为所述第一图像分割模型中卷积神经网络CNN的最后一层卷积层。


7.根据权利要求1~6任一所述的方法,其特征在于,所述距离为欧氏距离。


8.一种数据处理装置,其特征在于,包括:

【专利技术属性】
技术研发人员:袁松岭王晓利鲁奇凯陈楚城
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1