一种快速准确的图片检测与语义分类系统及方法技术方案

技术编号:34184907 阅读:15 留言:0更新日期:2022-07-17 13:59
本发明专利技术公开了图片检测与语义分类技术领域的一种快速准确的图片检测与语义分类系统及方法,包括:读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框。本发明专利技术可应用在对于图片的处理,提取图片特征,并将大量的图片进行语义分类,提高检测效率的同时提高处理结果的准确度。同时提高处理结果的准确度。同时提高处理结果的准确度。

A fast and accurate image detection and semantic classification system and method

【技术实现步骤摘要】
一种快速准确的图片检测与语义分类系统及方法


[0001]本专利技术涉及一种快速准确的图片检测与语义分类系统及方法,属于图片检测与语义分类


技术介绍

[0002]伴随着移动互联网、智能手机和社交网络的飞速发展,带来了海量的图片信息,根据2021年移动互联网行业数据研究报告,微信每天所发送的图片为6^7亿张,移动网民每天使用手机的时间约为6^7小时,浏览图片,短视频APP的时间约占50%,图片成为了互联网信息交流主要媒介。当信息由文字记载时,我们可以通过关键词搜索轻易找到所需内容并进行任意编辑,而当信息是由图片记载时,我们却无法对图片中的内容进行检索,从而影响了我们从图片中找到关键内容的效率。图片给我们带来了快捷的信息记录和分享方式,却降低了我们的信息检索效率。在这个环境下,计算机的图像检测技术就显得尤为重要。目前基于深度学习的图片检测方法主要是通过圈出预测矩形框来标定目标物体,来描述图像在图片中的位置。但当两个图像相距很近或重叠的时候,就会导致匹配混乱,准确率也大幅下降,而且会增加优化所需的时间。

技术实现思路

[0003]本专利技术的目的在于克服现有技术中的不足,提供一种快速准确的图片检测与语义分类系统及方法,可以精确的确定图片中图像的位置,减少搜索图像信息的时间,同时选用神经网络进行迭代优化,可大幅度降低误差。
[0004]为达到上述目的,本专利技术是采用下述技术方案实现的:
[0005]第一方面,本专利技术提供了一种快速准确的图片检测与语义分类方法,包括:
[0006]读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;
[0007]根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;
[0008]读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;
[0009]基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;
[0010]采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;
[0011]通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;
[0012]根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;
[0013]将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;
[0014]同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;
[0015]将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。
[0016]进一步的,若目标图像的所有特征均位于该预测矩形框中,则划分为最佳预测矩形框;若目标图像的超过指定比重的特征均不位于该预测矩形框中或全部特征都不在该预测矩形框中,则划分为无效预测矩形框。
[0017]进一步的,所述预测矩形框通过调用ImageDraw模块,直接读取图片文本信息中的Bbox值,使用retangle模块根据Bbox值精确的读取图片中图像的位置的方式构建得到。
[0018]进一步的,所述VGG19神经网络模型:
[0019]通过Conv2d模块进行卷积,在由多个输入平面组成的输入信号上应用二维卷积,表达式为:
[0020][0021]其中,*代表2维互相关运算符,out表示输出值,input表示输入值,表示输出通道数,bias表示偏差值,weight表示权重,N
i
表示第i张图片最小批量处理的图片数量,C
m
表示第m张图片的通道数,k表示卷积核大小,必须为正整数;
[0022]通过MaxPool2d模块进行最大池化,在由几个输入平面组成的输入信号上应用一个2D max池,表达式为:
[0023][0024]input(N
i
,C
i
,stride[0]×
h+m,stride[1]×
w+n)
[0025]N
i
表示第i张图片最小批量处理的图片数量,C
i
表示第i张图片的通道数,h表示输入平面的高度,以像素为单位;w表示输入平面的宽度,以像素为单位;m、n表示图片数量,kH为池化核高度,kW为池化核宽度。如果填充非零,则输入在两边隐式填充负无穷大的填充数,stride表示图像在卷积时每一步的步长;
[0026]通过Flatten模块进行展成,将连续的灰度范围变平为张量;
[0027]通过Linear模块进行线性化处理,对输入数据应用线性转换,表达式为:
[0028]Y=XA
T
+B
[0029]Y表示输出值,X表示输入值,A是输入矩阵,T表示对矩阵进行转置,B表示偏差值。
[0030]进一步的,所述第一损失函数为CrossEntropyLoss,表达式为:
[0031]R(x,y)=L={R1,.R
n
..,R
N
}
T
[0032]{yn≠忽略索引值}
[0033]式中,x为输入值,y是目标值,L表示这个矩阵集合的整体,C是类的数量,R
n
表示数量为n时的矩阵,N是最小批量处理的图片数量,T表示对矩阵进行转置,yn表示第n个目标值,w
yn
表示第n个目标值的权重,x
n,yn
表示数量为n,第n个目标值的权重时的输入值;x
n,c
表示数量为n,图片种类为C时的输入值;
[0034]当给定了忽略索引的值,未减少的损失值描述为:
[0035][0036]上式取平均值,下式求和;
[0037]每一类的概率:适用于每个小批产品需要一个类别以上的标签,未减少的损失描述为:
[0038]R(x,y)=L={R1,.R
n
..,R
N
}
T
[0039][0040]式中,x为输入值,y是目标值,C是类的数量,w
c
表示类的数量为C时的权重,N是最少尺寸的批量处理的图片,y
n,c
表示类的数量为C时的目标值;
[0041]所述第二损失函数为MSELoss,表达式为:
[0042]R(x,y)=L={R1,.R
n
..,R
N
}
T
[0043]R
n
=(x
n

y
n
)2[0044]其中,x
n
表示数量为n时的输入值,y
n
表示数量为n本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种快速准确的图片检测与语义分类方法,其特征是,包括:读取图片以及图片文本信息,预测出图片的左上角点与右下角点的坐标;根据图片的左上角点与右下角点的坐标值,框选出目标图片的范围;读取图片文本信息中的Bbox值,分析图片中各个图像在该图片中的坐标值;基于各个图像在该图片中的坐标值,在目标图片的范围内判断目标图像是否在选中的预测矩形框中,其中,当目标图像中超过指定比重的特征均位于该预测矩形框中时,则划分为有效预测矩形框;采用VGG19神经网络模型对图片进行卷积、最大池化、展成和线性化处理,提取特征点并压缩图片尺寸大小,得到多维的特征向量;通过神经网络模型中的softmax函数将所述的多维的特征向量回归归类到对应的图片类型下,并获取属于每个所述图片类型的预测概率;根据每个所述图片类型中图片文本信息的Bbox值构建左上角点与右下角点的第一损失函数和第二损失函数;将有效预测矩形框的识别结果,根据第一损失函数和第二损失函数依次进行优化,再选取RMSprop优化器降低误差值;同时构建训练步骤与测试步骤,设置训练次数与优化次数,并进行迭代;将迭代优化后得到的预测概率与设定阈值进行对比,将大于设定阈值的预测概率作为结果输出。2.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,若目标图像的所有特征均位于该预测矩形框中,则划分为最佳预测矩形框;若目标图像的超过指定比重的特征均不位于该预测矩形框中或全部特征都不在该预测矩形框中,则划分为无效预测矩形框。3.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述预测矩形框通过调用ImageDraw模块,直接读取图片文本信息中的Bbox值,使用retangle模块根据Bbox值精确的读取图片中图像的位置的方式构建得到。4.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述VGG19神经网络模型:通过Conv2d模块进行卷积,在由多个输入平面组成的输入信号上应用二维卷积,表达式为:其中,*代表2维互相关运算符,out表示输出值,input表示输入值,表示输出通道数,bias表示偏差值,weight表示权重,N
i
表示第i张图片最小批量处理的图片数量,C
m
表示第m张图片的通道数,k表示卷积核大小,必须为正整数;通过MaxPool2d模块进行最大池化,在由几个输入平面组成的输入信号上应用一个2D max池,表达式为:input(N
i
,C
i
,stride[0]
×
h+m,stride[1]
×
w+n)
N
i
表示第i张图片最小批量处理的图片数量,C
i
表示第i张图片的通道数,h表示输入平面的高度,以像素为单位;w表示输入平面的宽度,以像素为单位;m、n表示图片数量,kH为池化核高度,kW为池化核宽度。如果填充非零,则输入在两边隐式填充负无穷大的填充数,stride表示图像在卷积时每一步的步长;通过Flatten模块进行展成,将连续的灰度范围变平为张量;通过Linear模块进行线性化处理,对输入数据应用线性转换,表达式为:Y=XA
T
+BY表示输出值,X表示输入值,A是输入矩阵,T表示对矩阵进行转置,B表示偏差值。5.根据权利要求1所述的快速准确的图片检测与语义分类方法,其特征是,所述第一损失函数为CrossEntropyLoss,表达式为:R(x,y)=L={R1,.R
n
..,R
N
}
T
...

【专利技术属性】
技术研发人员:周铖君陈炜峰胡凯尚光涛
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1