基于Faster R-CNN的戏曲卡通人物的分类方法技术

技术编号:26690567 阅读:61 留言:0更新日期:2020-12-12 02:41
本发明专利技术公开了基于Faster R‑CNN的戏曲卡通人物的分类方法,以戏曲卡通图片为基础,运用数据增强技术,手工进行标注制作数据集,然后运用基于特征提取网络ResNet50的Faster R‑CNN算法对戏曲卡通人物进行检测识别,再融合特征金字塔网络(FPN)对Faster R‑CNN改进,进行多尺度检测识别,大大的提高了戏曲人物识别准确率。

【技术实现步骤摘要】
基于FasterR-CNN的戏曲卡通人物的分类方法
本专利技术属于目标识别领域,具体涉及一种基于FasterR-CNN的戏曲卡通人物的分类方法。
技术介绍
由于受多元化文化交流的影响,中国的传统戏曲已经处于濒危的边缘,急需当代人保护与传承。现在使用现代人类科研成果——目标识别,能够帮助人们快速检测识别每个戏曲卡通人物,这对于戏曲的发展保护具有极其重要的意义。自神经网络在ImageNet数据集上取得成功,深度学习开始被广泛应用在目标检测识别领域。Xinlei等人提出了非视距物体识别技术,利用光的相干性从微弱的反射光信号中获取场位相关信息,结合深度学习的人工智能算法,实现对障碍物后面物体的实时识别。TaoDai等人于2019年提出了一种二阶注意网络(SAN)用在单图像超分辨率,用于更强大的特征表达和特征相关学习。Zhao-MinChen提出基于图卷积(GCN)的end-to-end系统,通过data-driven方式建立标记间有向图并由GCN将类别标记映射为对应类别分类器,以此建模类别关系,同时可提升表示学习能力。ZechengXie等人提出一种新的聚合交叉熵(ACE)方法,用于序列识别,ACE损失函数表现出对ConnectionistTemporalClassification(CTC)和注意机制的竞争性能,实现更快推理和反向传播,更少存储要求,方便使用。在戏曲文化保护方面,陈璇等人提出使用Kinect设备和使用三基色,模仿传统皮影的交互方式控制数字皮影。ZhuYB等人使用半自动处理生成的皮影戏角色,然后利用光子贴图渲染皮影人物。Hsu等人通过运动规划算法,规划皮影运动路径,皮影动画被自动生成。图像分类识别是目标检测的基础,目标检测是在分类基础上,实现图像的目标定位,因此图像分类识别也推动着目标检测的进步。因此如何对戏曲卡通人物采用深度学习技术进行目标识别分类是本专利技术中提出的方法所要解决的问题。
技术实现思路
本专利技术的技术思路:本专利技术对戏曲卡通图片运用数据增强技术,手工进行标注制作数据集,然后运用基于特征提取网络ResNet50的FasterR-CNN算法对戏曲卡通人物进行检测识别,再融合特征金字塔网络(FPN)进行改进,最终得到良好的图片识别结果。针对上述存在的问题,本专利技术旨在提供基于FasterR-CNN的戏曲卡通人物的分类方法,将现代科学研究成果和中国戏曲发展现状结合起来,对戏曲卡通人物采用深度学习技术进行目标识别分类,对戏曲普及教育的发展起到一定程度的促进作用,为了实现上述目的,本专利技术所采用的技术方案如下:基于FasterR-CNN的戏曲卡通人物的分类方法,其特征在于,包括以下步骤:S1:制作戏曲人物图片数据集并且以其按比例分配作为训练集和测试集,利用训练集训练FasterR-CNN模型;S2:将输入的原始戏曲卡通图片传入到卷积层,利用基于FasterR-CNN的特征提取网络对输入的戏曲卡通图片进行特征提取;S3:对提取出的特征图进行分类识别,得出戏曲卡通人物识别结果图。进一步地,步骤S1中所述的制作戏曲图片数据集通过对现有图片运用数据增强技术进行处理,并且对图片手工标注,最后将标注结果制作成VOC2007数据集格式。进一步地,步骤S2中所述的特征提取网络采用50层残差网络ResNet50。进一步地,步骤S2中对输入的戏曲卡通图片进行特征提取的具体操作包括:S21:将输入的原始图片,进行卷积计算,输出提取出的特征图;S22:利用RPN推荐出候选区域,用于实现目标定位功能;S23:在提取出的最后一层特征图上结合FPN,使得特征层增多,从而使RoI_pooling也随之增加,用以生成更强大的语义信息;并在每张图片上生成候选区域的特征图;S24:将不同大小的候选区域的特征图依次经过RoI_pooling层转换为定长的特征图;S25:再将得到的定长的特征图经过两个全连接层得到特征向量,特征向量在各自全连接层得到分类与回归,输出最终结果,候选区域的类别以及候选区域的确切位置。本专利技术的有益效果是:本专利技术中提出的方法研究了戏曲艺术的发展现状与深度学习的应用,制作了完整的戏曲人物数据集。并且采用基于ResNet50特征网络的FasterR-CNN目标检测算法,融合FPN对FasterR-CNN改进,进行多尺度检测识别,大大的提高了识别准确率,开创了目标识别技术在戏曲人物识别方面的应用,促进了戏曲艺术的发展与传承。附图说明图1为R-CNN算法结构图;图2为FastR-CNN的原理结构图;图3为FasterR-CNN的整体流程图;图4为残差块结构图;图5为ResNet+RPN架构图;图6为自上而下的路径与横向连接示意图;图7为FPN与RPN融合后的网络结构图;图8(a)-(h)为实施例中基于未融合FPN的ResNet50网络模型的卡通人物识别结果图;图9(a)-(b)为实施例中FasterR-CNN融合FPN后对laodan的识别结果图;图10(c)-(d)分别为实施例中未融合FPN的FasterR-CNN和融合了FPN的FasterR-CNN对mo的识别结果图;图11(e)-(f)分别为实施例中未融合FPN的FasterR-CNN和融合了FPN的FasterR-CNN对fangjinchou的识别结果图。具体实施方式为了使本领域的普通技术人员能更好的理解本专利技术的技术方案,下面结合附图和实施例对本专利技术的技术方案做进一步的描述。首先,说明R-CNN模型:R-CNN使用了CNN较好的特征提取和分类性能,通过候选区域选择来实现问题的转化。R-CNN生成候选框(proposals)采用的是选择搜索(SelectiveSearch),主要通过颜色、边缘等从下至上对图像进行分割。再对分割区域进行不同尺度的合并,每生成一个区域即为候选区域,该算法工作原理如附图1所示,流程如下:①输入图像:输入待检测的图像,送入网络;②候选区域选择:目标图像是由滑动窗口获取的,模型接收图像并提取约2000个自下而上的候选区域,参照proposal提取到的目标图像作归一化运算,输入到CNN;③CNN特征提取:使用大型CNN计算每个候选区域的特征,再依据输入,进行卷积、池化等运算,可以得到固定维度的输出;④分类与边界回归:对③得到的输出进行分类,再由边界回归得到目标区域。其次,说明FastR-CNN:受SPPnet启发,Girshick做了进一步改进,2015年提出FastR-CNN,其网络结构如附图2所示,FastR-CNN引入RoI(RegionofInterest)池化层,它可以将大小不一的候选框卷积特征映射提取为固定大小的特征。FastR-CNN整合了深度网络、支持向量机(SVM)分类。实验证明,在PascalVOC数据集上,FastR-CNN的训练时间较R-CNN缩短了8/本文档来自技高网
...

【技术保护点】
1.基于Faster R-CNN的戏曲卡通人物的分类方法,其特征在于,包括以下步骤:/nS1:制作戏曲人物图片数据集并且以其按比例分配作为训练集和测试集,利用训练集训练Faster R-CNN模型;/nS2:将输入的原始戏曲卡通图片传入到卷积层,利用基于Faster R-CNN的特征提取网络对输入的戏曲卡通图片进行特征提取;/nS3:对提取出的特征图进行分类识别,得出戏曲卡通人物识别结果图。/n

【技术特征摘要】
1.基于FasterR-CNN的戏曲卡通人物的分类方法,其特征在于,包括以下步骤:
S1:制作戏曲人物图片数据集并且以其按比例分配作为训练集和测试集,利用训练集训练FasterR-CNN模型;
S2:将输入的原始戏曲卡通图片传入到卷积层,利用基于FasterR-CNN的特征提取网络对输入的戏曲卡通图片进行特征提取;
S3:对提取出的特征图进行分类识别,得出戏曲卡通人物识别结果图。


2.根据权利要求1所述的基于FasterR-CNN的戏曲卡通人物的分类方法,其特征在于:步骤S1中所述的制作戏曲图片数据集通过对现有图片运用数据增强技术进行处理,并且对图片手工标注,最后将标注结果制作成VOC2007数据集格式。


3.根据权利要求1所述的基于FasterR-CNN的戏曲卡通人物的分类方法,其特征在于:步骤S2中所述...

【专利技术属性】
技术研发人员:瞿绍军夏华丽
申请(专利权)人:湖南师范大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1