一种图像数据集构建方法、系统及计算机可读存储设备技术方案

技术编号:17468061 阅读:53 留言:0更新日期:2018-03-15 05:23
本申请公开了一种图像数据集构建方法、系统及计算机可读存储介质,其中,该方法包括:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,哈希值子集有M个哈希值,M为大于或等于1的整数;分别从任一哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,利用第二目标哈希值集,在原始图像中获取对应的图像,以构建目标图像数据集;获得第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算原始图像的哈希值,根据计算得到的哈希值剔除重复的哈希值,得到第一目标哈希值集。本申请实现了构建差异化的图像数据集。

【技术实现步骤摘要】
一种图像数据集构建方法、系统及计算机可读存储设备
本专利技术涉及计算机
,特别涉及一种图像数据集构建方法、系统及计算机可读存储设备。
技术介绍
数据、算法和计算能力是机器学习的三大支柱。数据对机器学习模型的性能影响巨大,充足的数据是训练性能良好的机器学习模型的基础。而数据的充足性不仅体现在数据的量上,还体现在数据的多样性上。有差异化的数据才是对问题更全面的描述,大量相同或相似的数据只是对问题某一方面的重复刻画。例如:输电线路无人机巡检通常都会采集大量图像,多种因素导致其中存在不少相同和相似的图像:(1)对于同塔多回的线路巡检,完全相同的图像通常会保存在不同线路的巡检结果中;(2)人工通过巡线图像查找输电线路缺陷时,为便于发现缺陷,有时会调整图像的饱和度、对比度等参数,导致相同的图像对应效果不同的多个版本;(3)在巡线抓拍过程中,存在同一位置附近多次拍摄、连拍,这会采集到多张非常相似的图像。所以,训练机器学习模型即使采用了大量数据,但由于其中包含大量相同和相似的数据,这不仅浪费了数据标注成本,更重要的是难以训练出性能良好的机器学习模型。因此,如何构建差异化的图像数据集是本领域技术本文档来自技高网...
一种图像数据集构建方法、系统及计算机可读存储设备

【技术保护点】
一种图像数据集构建方法,其特征在于,包括:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。

【技术特征摘要】
1.一种图像数据集构建方法,其特征在于,包括:划分预先得到的第一目标哈希值集,得到对应的哈希值子集;其中,所述哈希值子集有M个哈希值,M为大于或等于1的整数;分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集;其中,N为小于或等于M的正整数;计算所有第一目标哈希值子集的并集,得到第二目标哈希值集,并利用所述第二目标哈希值集,在所述原始图像中获取对应的图像,以构建目标图像数据集;其中,得到所述第一目标哈希值集的过程包括:获取原始图像数据集,得到对应的原始图像;计算所述原始图像的哈希值,并根据计算得到的哈希值剔除重复的哈希值,得到所述第一目标哈希值集。2.根据权利要求1所述的图像数据集构建方法,其特征在于,所述划分预先得到的第一目标哈希值集,得到对应的哈希值子集的过程包括:从所述第一目标哈希值集中抽取a个哈希值,得到第三目标哈希值集;其中,a为大于或等于1的整数;划分所述第三目标哈希值集,得到对应的哈希值子集。3.根据权利要求1至2任一项所述的图像数据集构建方法,其特征在于,所述分别从任一所述哈希值子集中抽取N个哈希值,生成第一目标哈希值子集的过程之后还包括:从所述第一目标哈希值子集中任选一个哈希值,并移动选中的哈希值至第二目标哈希值子集;计算所述第一目标哈希值子集中剩余哈希值中任选第二个哈希值与所述选中的哈希值之间的距离;判断所述第二个哈希值与所述选中的哈希值是否大于预设阈值距离,若是,则移动所述第二个哈希值至所述第二目标哈希值子集;计算所述第一目标哈希值子集中剩余哈希值中任选的第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离;其中,b为大于1的整数;判断第b个哈希值与所述第二目标哈希值子集中所有哈希值之间的距离是否都大于预设阈值距离,若是,则移动所述第b个哈希值至所述第二目标哈希值子集。4.根据权利要求3所述的图像数据集构建方法,其特征在于,所述计算距离的公式为:式中,其中,为任意两个哈希值和之间的距离;为提取二进制串的第p至第q位,且p≤q;i表示将或划分为MH段后的任一段;为将划分为MH段后的第i段的哈希值;为将划分为MH段后的第i段...

【专利技术属性】
技术研发人员:钱基业伏进何国军宋伟周小龙赵恒军张海兵肖前波吴国照张盈黄江晨彭姝迪
申请(专利权)人:国网重庆市电力公司电力科学研究院国家电网公司重庆文理学院
类型:发明
国别省市:重庆,50

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1