【技术实现步骤摘要】
基于标签自动化的题型样本制作方法
本专利技术涉及属于深度学习样本制作
,尤其涉及一种基于标签化处理技术的题型样本自动裁剪和制作方法。
技术介绍
人工智能和大数据同属于时代的产物,两者有着千丝万缕的联系。人工智能的诞生和发展离不开数据本身,一切以数据为中心的人工智能,受到大数据的影响,正悄无声息地改变着人们的生产和生活方式。现如今,人工智能所依赖的大数据仍然避免不了投入大量人工标注和数据清洗的成本,为了应对日益增长的数据量,提高数据处理的效率,亟需一种可自动化裁剪归类的数据处理工具,它不仅有利于获取高质量的数据样本,而且很大程度上减少了人工投入的成本。同时,在人工智能依赖大数据方面,充分发挥着它的优势。因此,本申请基于作业识别领域,对各类题型数据样本的需求和自动裁剪归类方法做出了相关研究,提供了一种基于标签自动化的题型样本制作方法。
技术实现思路
本专利技术要解决的技术问题是,提供一种能够完成对题型的自动裁剪和归类,同时包含题型范围内的所有字符信息的基于标签自动化的题型样本制作方法。为 ...
【技术保护点】
1.一种基于标签自动化的题型样本制作方法,其特征在于,具体包括以下步骤:/n步骤S1自定义样本标签:明确样本的类别范围,统计待采集的样本,对所述样本的类别做标签定义和表述;/n步骤S2样本图像预处理:对所述步骤S1中标签定义和表述后的样本图像进行预处理,实现手写体样本的清晰化提取;/n步骤S3字符和题型标注:样本图像通过预处理步骤后,得到含有清晰笔迹的手写图像,再对所述手写图像中的每个字符,结合标签定义和需求进行标注,并利用题型坐标记录对题型做独立裁剪,获得题型图像;/n步骤S4题型内字符判断:对已标注的所有标签做一次遍历,获取所述手写图像中的题型坐标集;/n步骤S5题型坐 ...
【技术特征摘要】
1.一种基于标签自动化的题型样本制作方法,其特征在于,具体包括以下步骤:
步骤S1自定义样本标签:明确样本的类别范围,统计待采集的样本,对所述样本的类别做标签定义和表述;
步骤S2样本图像预处理:对所述步骤S1中标签定义和表述后的样本图像进行预处理,实现手写体样本的清晰化提取;
步骤S3字符和题型标注:样本图像通过预处理步骤后,得到含有清晰笔迹的手写图像,再对所述手写图像中的每个字符,结合标签定义和需求进行标注,并利用题型坐标记录对题型做独立裁剪,获得题型图像;
步骤S4题型内字符判断:对已标注的所有标签做一次遍历,获取所述手写图像中的题型坐标集;
步骤S5题型坐标的换算:对题型坐标集的坐标进行换算后计算题型样本的外接矩形框坐标;
步骤S6字符坐标的换算:对题型图像做独立裁剪时,将所述题型图像的顶点坐标进行换算成题型裁剪图的字符;
步骤S7生成图片和xml文件:根据标注的对象类型进行分类,将题型内的字符作换算处理生成对应的题型xml文件,将其他类别的标注对象进行裁剪;
步骤S8题型和字符归类:根据已标注的类别标签,将裁剪的不同图片分成不同的文件夹做自动归类。
2.根据权利要求1所述的基于标签自动化的题型样本制作方法,其特征在于,所述步骤S1中采集样本的方式包括扫描和拍照。
3.根据权利要求1所述的基于标签自动化的题型样本制作方法,其特征在于,所述步骤
S3中采用开源的LabelImg工具对所述手写图像中的每个字符,结合标签定义和需求进行标
注,字符标注的信息包括字符框坐标、字符所属的实际类别,所述字符框坐标为:,其中,字符的左上角顶点坐标为:,字符的右下角顶点坐
标为:。
4.根据权利要求3所述的基于标签自动化的题型样本制作方法,其特征在于,将已标注
的字符框坐标记录组成坐标集合记作:,其中n表示已标...
【专利技术属性】
技术研发人员:田博帆,
申请(专利权)人:南京红松信息技术有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。