【技术实现步骤摘要】
图片训练样本挖掘方法、装置、终端及计算机可读存储介质
本专利技术涉及信息处理技术,尤其涉及一种图片训练样本挖掘方法、装置、终端和计算机可读存储介质。
技术介绍
计算机视觉技术的成熟为图像分类、图像检索、视频分析、视频或图片的广告、自动驾驶、智能医疗等领域带来突破性的进展。为了能够达到更高的图像分类检索准确率和图像识别率,在训练视觉模型时需要针对不同的应用场景收集数据,如花的识别、红酒的识别、动物的识别、狗的识别等。同时,为了增加视觉模型的泛化能力,需要大量的图片训练样本。目前,图片训练样本的挖掘方式有以下三种方案:(1)全人工标注:收集图片集合,利用人工的方法把需要的训练图片样本从集合中筛选出来。虽然筛选图片的精度比较高,但是由于需要控制人力成本和速度,只能应用在小规模和对数据量要求不高的场景,所以应用范围比较有限。(2)半人工标注:与方案(1)相似,但收集图片集合的过程由机器来取代,通过已经训练好的模型在图片库中挖掘把高置信度的样本交予人工干预确认。虽然样本筛选精度高,但是在数据量比较庞大的情况下,还是需要较多的人工工作,挖掘出的样本很难达到通过简单人工干预就能提纯的效果。而且,由于样本标出率依赖初始筛选模型的性能,当现有模型不支持该类别时,无法实现半自动挖掘。当初始自动筛选的模型能力有限,模型精度较低时,需要选取预测置信度较高的样本,可以保证较低的人工成本。然而,因为过滤掉了大部分低置信样本,样本的标出率较低,整个样本的生产周期变长。如果降低初始模型预测置信度,则会增大人工成本的代价,整个周期也会被拉长。(3)自动化方法:利用现有的图片检索系统的线上高 ...
【技术保护点】
1.一种图片训练样本挖掘方法,其特征在于,包括:根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;根据所述图片描述文本训练得到通用文本相似度模型;利用所述通用文本相似度模型和类别特征参数训练得到垂类模型,所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应;利用所述垂类模型对所述候选图片进行分类,得到多个候选图片分类集合;将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本。
【技术特征摘要】
1.一种图片训练样本挖掘方法,其特征在于,包括:根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;根据所述图片描述文本训练得到通用文本相似度模型;利用所述通用文本相似度模型和类别特征参数训练得到垂类模型,所述类别特征参数与根据所述图片描述文本分类得到的训练样本类别相对应;利用所述垂类模型对所述候选图片进行分类,得到多个候选图片分类集合;将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本。2.根据权利要求1所述的方法,其特征在于,利用所述通用文本相似度模型和类别特征参数训练得到垂类模型之前,还包括:根据所述图片描述文本分类得到多个所述训练样本类别;在每个所述训练样本类别对应的多个垂类网站中抓取垂类数据,所述垂类数据包括分类后的图片和对应的图片描述文本;根据所述分类后的图片和图片描述文本提取所述类别特征参数。3.根据权利要求1所述的方法,其特征在于,将每个所述候选图片分类集合中的图片输入至文本语义相似度模型和图片内容相似度模型中,得到每个类别对应的图片训练样本的步骤包括:将所述候选图片分类集合中的图片输入至所述文本语义相似度模型中,输出第一图片集合;利用所述第一图片集合中语义相似度大于第一阈值的图片训练得到所述图片内容相似度模型;将所述候选图片分类集合中的图片输入至所述图片内容相似度模型中,输出第二图片集合。4.根据权利要求3所述的方法,其特征在于,输出第二图片集合之后,还包括:利用所述第二图片集合中语义相似度大于第二阈值的图片训练得到新文本语义相似度模型;将所述第二图片集合中的图片输入至所述新文本语义相似度模型中,输出第三图片集合;利用所述第三图片集合中语义相似度大于第三阈值的图片训练得到新图片内容相似度模型;将所述第二图片集合中的图片输入至所述新图片内容相似度模型中,输出第四图片集合。5.根据权利要求4所述的方法,其特征在于,输出第四图片集合之后,还包括:判断所述第四图片集合中的所有图片之间的图片内容相似度且文本语义相似度是否一致;若一致,则输出所述第四图片集合,以构成所述图片训练样本;若不一致,则返回执行将所述第四图片集合中的图片作为所述第二图片集合中的图片的操作,直至输出图片内容相似度和文本语义相似度一致的所述图片训练样本。6.一种图片训练样本挖掘装置,其特征在于,包括:候选图片获取模块,用于根据输入的图片查询条件获取多个候选图片以及对应的图片描述文本;通用文本相似度模型训练模块,用于根据所述图片描述文本训练得到通用文本相似度模型;垂类模型训练模块,用于利用所述通用文本相似度模型和类别特征参数训...
【专利技术属性】
技术研发人员:孟骧龙,严灿祥,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。