【技术实现步骤摘要】
数据评估方法、系统及计算机可读存储介质
[0001]本申请涉及计算机软件及快销
,尤其涉及一种数据评估方法、系统及计算机可读存储介质。
技术介绍
[0002]随着人工智能在快销领域中的不断扩展,目标检测在商品识别中大规模的运用逐渐成为趋势,它很大提高了业务员巡店的工作效率,帮助企业快速了解终端门店的铺货销售详情。但建立一个精确的商品检测模型需要有足量的真实场景数据来训练模型,这就要求在模型建模前,数据采集人员下到各个商超门店去采集商品图片数据。为了较好的学习效果,一般要求各种商品类别数据足够且相对均衡。但商品的种类繁多,企业铺货时也会根据商品的销售热度进行偏好性选择,导致采集的数据非常不均衡,又或者出现重复采集。目前常见的做法是,先采集一批数据,然后人工刷选后进行标注,再统计各个商品SKU的数量,针对不足的SKU重新进行数据采集。而这种做法往往存在几个弊端:
[0003]1)人工刷选图片浪费较多的人力,工作成本较高;
[0004]2)标注的样本为偏好性行为,缺乏针对性,如畅销商品图片被大量标记,但稀缺产 ...
【技术保护点】
【技术特征摘要】
1.一种数据评估方法,其特征在于,包括:基于商品数据库,从每类待学习商品中选取n张图像,作为标注集;其中,n<<m,m为建模需求数量;对包含所述商品的场景图像进行商品检测分割,将分割后的子图像作为未标注集;利用所述标注集和所述未标注集训练改进的Mixmatch模型,直至模型收敛,生成目标分类器;将所述未标注集输入至所述目标分类器,根据输出的置信度计算待学习商品的得分情况;根据所述待学习商品的得分情况与所述建模需求数量的关系确定数据采集策略。2.根据权利要求1所述的数据评估方法,其特征在于,所述根据输出的置信度计算待学习商品的得分情况,包括:确定输出的置信度中置信度最高的两个类别,将置信度分别记作P
A
、P
B
,第一预设值和第二预设值分别记为T1、T2,假设P
A
>P
B
;若P
A
>T1,则P
A
对应的商品类别得分为1,其他类别得分置0;若P
A
≤T1,且P
A
为负样本类,则所有商品类别得分为0;若P
A
+P
B
≤T2,则所有商品类别得分为0;若P
A
+P
B
>T2,则P
A
、P
B
对应的商品类别得分分别为:对应的商品类别得分分别为:式中,O
A
、O
B
分别为P
A
、P
B
所在类别的归一化得分输出;R
A
、R
B
分别为置信度得分的锐化中间结果;t为温度系数。3.根据权利要求1或2任一项所述的数据评估方法,其特征在于,所述根据所述待学习商品的得分情况与所述建模需求数量的关系确定数据采集策略,包括:计算每个商品类别的总得分,若某商品类别的总得分少于建模需求数量的90%,则标记此类商品需要补充商品图像;若某商品类别的总得分高于建模需求数量的2倍,则标记该类商品图像数量达标。4.根据权利要求3所述的数据评估方法,其特征在于,所述根据所述待学习商品的得分情况与所述建模需求数量的关系确定数据采集策略,还包括:根据商品类别的得分情况,判断商品类别的均衡程度是否满足预设要求;若商品类别的均衡程度不满足预设要求,对所述场景图像进行刷选,包括:确定场景图像分割出的子图像的得分集合D:D={d1,d2...d
m
};其中,式中,d
i
为第i张场景图像,表示从第i张场景图像中分割出第j张子图不包括负样本类别的得分;
计算D的方差,记为var,设第三预设值为T3;循环D的每一项d
i
,循环m次;在剔除当前d
i
项后,得到新集合D1、D2、...D
m
;并分别计算D1、D2、...D
m...
【专利技术属性】
技术研发人员:李德圆,丁明,许洁斌,
申请(专利权)人:广州市玄武无线科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。