【技术实现步骤摘要】
一种数据处理方法及装置
本专利技术实施例涉及数据处理
,尤其涉及一种数据处理方法及装置。
技术介绍
深度学习中在计算机视觉任务和自然语言处理任务中将预训练的模型作为新模型的起点是一种常用的方法,通常这些预训练的模型在开发神经网络的时候已经消耗了巨大的时间资源和计算资源,迁移学习可以将已习得的强大技能迁移到相关的问题上。迁移学习(TransferLearning)是一种机器学习方法,是把一个领域(源领域)的知识,迁移到另外一个领域(目标领域),使得目标领域能够取得更好的学习效果。现阶段在迁移学习过程上,更多的是考虑怎么样设计微调模型,但是在迁移学习过程中,还需要对目标领域的数据进行标注,现有技术未能考虑如何挑选最合适的目标领域的数据进行标注,使得迁移学习的效率低,准确性差。
技术实现思路
本申请实施例提供一种数据处理方法及装置,在迁移学习过程中挑选最合适的目标领域的数据进行标注,以提高迁移学习的效率以及准确性。一方面,本申请实施例提供一种数据处理方法,所述方法包括:获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;基于所述第一数据处理模型,获得各个第一 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;/n基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合;/n根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;/n将迭代终止时的第一数据集合中新增第一数据进行标注,并将标注后的第一数据集合作为第二训练数据集合,训练所述第一数据处理模型,得到第二数据处理模型;/n基于所述第二数据处理模型处理所述第二应用场景中的数据。/n
【技术特征摘要】 【专利技术属性】
1.一种数据处理方法,其特征在于,所述方法包括:
获取第一数据集合、第二数据集合以及第一数据处理模型,所述第一数据集合中包括已标注的第一数据,所述第一数据处理模型是根据第一训练数据集合训练得到的,所述第一数据处理模型应用于第一应用场景,所述第一数据集合中的第一数据以及所述第二数据集合中的第二数据是针对第二应用场景的待选训练数据,所述第一数据集合、第二数据集合中的数据与所述第一训练数据集合中的数据属性相同;
基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合;
根据设定的迭代条件执行:确定各第二向量与所述第一向量集合之间的相似度,并将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,将进行调整的第二数据对应的第二向量作为新增的第一向量加入到第一向量集合中;
将迭代终止时的第一数据集合中新增第一数据进行标注,并将标注后的第一数据集合作为第二训练数据集合,训练所述第一数据处理模型,得到第二数据处理模型;
基于所述第二数据处理模型处理所述第二应用场景中的数据。
2.根据权利要求1所述的方法,其特征在于,所述确定各第二向量与所述第一向量集合之间的相似度包括:
针对每一个第二向量,根据该第二向量与各第一向量之间的向量距离,确定第二向量与所述第一向量集合之间的相似度。
3.根据权利要求2所述的方法,其特征在于,所述根据该第二向量与各第一向量之间的向量距离,确定第二向量与所述第一向量集合之间的相似度,包括:
将该第二向量与各第一向量之间的向量距离的最小值作为该第二向量与所述第一向量集合之间的相似度。
4.根据权利要求1所述的方法,其特征在于,所述将满足预设调整条件的相似度对应的第二数据调整为第一数据加入到第一数据集合中,包括:
将各相似度中的最大值对应的第二数据调整为第一数据加入到第一数据集合中。
5.根据权利要求1所述的方法,其特征在于,所述基于所述第一数据处理模型,获得各个第一数据的第一向量构成的第一向量集合,并获得各个第二数据的第二向量构成的第二向量集合,包括:
将所述第一数据集合中每个第一数据输入至所述第一数据处理模型中,并将设定网络层的输出结果作为各第一数据的第一向量,将所述第二数据集合中每个第二数据输入至所述第二数据处理模型中,将设定网络层的输出结果作为第二各数据的第二向量,根据各第一向量构成所述第一向量集合,根据各第二向量构成所述第二向量集合,所述设定网络层是根据所述第一数据处理模型的模型结构以及所述第二应用场景确定的。
6.根据权利要求5所述的方法,其特征在于,所述第一数据处理模型为第一图像分割模型,所述设定网络层为所述第一图像分割模型中卷积神经网络CNN的最后一层卷积层。
7.根据权利要求1~6任一所述的方法,其特征在于,所述距离为欧氏距离。
8.一种数据处理装置,其特征在于,包括:
技术研发人员:袁松岭,王晓利,鲁奇凯,陈楚城,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。