【技术实现步骤摘要】
训练图像集生成方法、装置、计算机设备及存储介质
[0001]本专利技术涉及数据处理的数据采集
,尤其涉及一种训练图像集生成方法、装置、计算机设备及存储介质。
技术介绍
[0002]人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术也有软件层面的技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。其中,计算机视觉技术(CV,Computer Vision)是一门研究如何使机器“看”的科学,通常包括图像处理、图像识别、图像语义理解、图像检索、光学字符识别文字识别(OCR,Optical Character Recognition)等技术。
[0003]而随着人工智能技术逐渐成熟,图像识别技术越来越广泛地应用到日常生活中。为了得到识别精确更高的图像识别模型,需要通过大量的已标注样本对图像识别模型进行训练,而在现有技术中在构建训练样本时,通常采用手动输入等人工标注的方式实现,不仅耗费人力成本,还大大降低了样本的标注效率,给模型训练上带来了极大的困难。< ...
【技术保护点】
【技术特征摘要】
1.一种训练图像集生成方法,其特征在于,包括:获取待生成图像集和生成数量;其中,所述待生成图像集包括多个待生成图像;一个所述待生成图像关联一个目标标签;一个所述目标标签对应一个目标描述;所述生成数量为通过待生成图像集生成用于训练的训练图像的数量;运用文本相似度技术,在历史标签库中爬取与所述目标标签和所述目标描述均相似的历史标签,并根据爬取的所有所述历史标签,确定出待迁移类别;从识别模型库中获取与所述待迁移类别对应的待迁移模型,以及通过所述待迁移模型对各所述待生成图像进行识别,得到与各所述待生成图像对应的目标区域,并将标记有目标区域的所述待生成图像记录为待处理图像;对各所述待处理图像进行基于因素增强比例的图像增强处理,生成所述生成数量个数的训练图像;将各所述训练图像和与各所述训练图像对应的所述待生成图像关联的所述目标标签进行关联;将所有所述待处理图像和所有关联后的所述训练图像确定为训练图像集。2.如权利要求1所述的训练图像集生成方法,其特征在于,所述运用文本相似度技术,在历史标签库中爬取与所述目标标签和所述目标描述均相似的历史标签,并根据爬取的所有所述历史标签,确定出待迁移类别,包括:运用网络爬虫技术,爬取与所述目标标签匹配的网络描述;根据所述网络描述,对所述目标描述进行关键词加权,得到聚焦描述;运用文本相似度技术,在所述历史标签库中比对各所述历史标签下的历史描述和所述聚焦描述,得到与各所述历史描述对应的相似度值;将与最大的相似度值对应的所述历史描述对应的所述历史标签确定为所述待迁移类别。3.如权利要求1所述的训练图像集生成方法,其特征在于,所述通过所述待迁移模型对各所述待生成图像进行识别,得到与各所述待生成图像对应的目标区域,包括:通过所述待迁移模型对各所述待生成图像进行迁移特征提取,根据提取的迁移特征进行区域识别,得到各所述待生成图像的识别区域;对各所述待生成图像的识别区域进行目标微调,得到与各所述待生成图像对应的目标区域。4.如权利要求3所述的训练图像集生成方法,其特征在于,所述对各所述待生成图像的识别区域进行目标微调,得到与各所述待生成图像对应的目标区域,包括:对所述待生成图像的识别区域邻近的预设范围内进行边缘分割,识别出边缘线;根据所述边缘线,对所述识别区域进行边缘缩小,得到与所述待生成图像对应的所述目标区域。5.如权利要求1所述的训练图像集生成方法,其特征在于,所述对各所述待处理图像进行基于因素增强比例的图像增强处理,生成所述生成数量个数的训练图像,包括:将所述生成数量和所述待生成图像集中的待生成图像的个数的比值确定为目标占比;其中,所述生成数量大于所述待生成图像集中的待生成图像的个数;对所有所述待处理图像进行基于所述目标占比的多等分处理,得到包含顺次排序的多
个单元图像集的图像序列组;选取所述图像序列组中排序第一的所述单元图像集;根据所述目标占比和预设因素增强比例,对选取的所述单元图像集进行图像增强处理,生成与该单元图像集对应的多个测试图像,并确定出与该单元图像集对应的性能指标值;检测所述图像序列组中是否存在除排序第一的所述单元图像集之外的单元图像集;若检测到存在除排序第一的所述单元图像集之外的单元图像集,将...
【专利技术属性】
技术研发人员:高预皓,彭晶,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。