数据处理方法与装置制造方法及图纸

技术编号：19009548 阅读：48 留言：0更新日期：2018-09-22 09:22

本发明专利技术公开了一种数据处理方法，包括：基于图片中的目标物体的类别，生成相应的目标物体原型，图片包括第一类目标物体和/或不同于第一类目标物体的第二类目标物体；基于图片中的目标物体的类别以及相应的目标物体原型，生成对应于图片中的目标物体的多个不同的样本；基于图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与图片相对应的多个图片样本。通过本发明专利技术的技术方案，在冷启动时，可以自行生成样本以进行训练。

Data processing method and device

The invention discloses a data processing method, including: generating corresponding target object prototype based on the category of the target object in the picture, including the first type of target object and/or the second type of target object different from the first type of target object, based on the category of the target object in the picture and the corresponding target object original. Based on the category of the target object in the picture, a plurality of background and a plurality of different generated samples are fused separately to determine a plurality of picture samples corresponding to the picture. Through the technical proposal of the invention, samples can be generated automatically when cold start is used for training.

全部详细技术资料下载

【技术实现步骤摘要】
数据处理方法与装置
本专利技术属于图像数据处理领域，尤其涉及一种基于机器学习的图像数据处理方法以及装置。
技术介绍
机器学习是人工智能的一个分支。人工智能研究是从以“规则”为重点到以“推理”为重点再到“学习”为重点。因此，机器学习是现阶段实现人工智能的重要途径，即以机器学习为手段解决人工智能中的问题。机器学习主要是设计和分析一些让计算机可以自动“学习”的算法，从大量数据中自动分析获得规律，并利用规律对未知数据进行预测的方法。机器学习已广泛应用于数据挖掘、计算机视觉、自然语言处理、生物特征识别、搜索引擎、医学诊断、证券市场分析等领域。监督学习是机器学习的一种方式，它利用一组类别已知的样本调整学习模型的参数，使结果与已知类别拟合。这种学习方式需要标记大量训练样本。在监督学习中，每个实例都是有一个输入对象(特征)和一个期望输出值(监督信号)组成。监督学习算法分析训练数据，并产生一个推断功能，完成判别未知样本的标记，或者生成指定类别样本实例的任务。深度学习是机器学习的一个分支，它试图使用包含复杂结构或由重非线性变换构成的多个处理层对数据进行高层抽象。基于数据观测值的各种表...
数据处理方法与装置

【技术保护点】
1.一种数据处理方法，其特征在于，包括：基于图片中的目标物体的类别，生成相应的目标物体原型，所述图片包括第一类目标物体和/或不同于所述第一类目标物体的第二类目标物体；基于所述图片中的目标物体的类别以及相应的目标物体原型，生成对应于所述图片中的目标物体的多个不同的样本；基于所述图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与所述图片相对应的多个图片样本。

【技术特征摘要】
1.一种数据处理方法，其特征在于，包括：基于图片中的目标物体的类别，生成相应的目标物体原型，所述图片包括第一类目标物体和/或不同于所述第一类目标物体的第二类目标物体；基于所述图片中的目标物体的类别以及相应的目标物体原型，生成对应于所述图片中的目标物体的多个不同的样本；基于所述图片中的目标物体的类别，将多个背景和所生成的多个不同的样本分别融合，以确定与所述图片相对应的多个图片样本。2.如权利要求1所述的方法，其特征在于，第一类目标物体包括文字对象，当所述文字对象的字体属于预定义字体集时，根据所述文字对象的字体来生成目标文字集，当所述文字对象的字体不属于预定义字体集时，根据所述文字对象的文字形态来生成目标文字集，其中，所述目标文字集对应于所述文字对象的原型；以及第二类目标物体包括非文字对象，通过对所述非文字对象进行训练而确定目标模型，并且所述目标模型对应于所述非文字对象的原型。3.如权利要求2所述的方法，其特征在于，对于所述非文字对象，根据所述目标模型生成具有指定语义的多个非文字对象样本；对于所述文字对象，根据语义内容将所述目标文字集中的文字进行组合，并对经组合的文字进行图像处理，进而确定多个文字对象样本。4.如权利要求3所述的方法，其特征在于，所述图像处理包括对所述文字对象样本的尺寸和位置、像素的颜色、灰度、亮度中的一个或多个进行变化，其中，经所述图像处理的文字对象样本的语义信息与图像处理前的文字对象的语义信息基本上相同。5.如权利要求3所述的方法，其特征在于，将所述文字对象样本与所述背景比例性地融合。6.一种用于数据处理的装置，其特征在于，包括：处理器；存储器，其用于存储指令，当所述指令在执行时，使得所述处理器执行以下操作：基于图片中的目标物...

【专利技术属性】
技术研发人员：谢畅，钱浩然，徐宝函，陆王天宇，
申请(专利权)人：众安信息技术服务有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人