【技术实现步骤摘要】
手绘场景下的图像识别与智能转化方法、系统及计算机可读介质
[0001]本专利技术属于图像识别与人机交互
,涉及手绘流程草图的识别及其计算机可编辑标准格式的生成,具体涉及手绘场景下的图像识别与智能转化方法、系统及计算机可读介质。
技术介绍
[0002]当前计算机技术及拍摄技术的迅速发展,为绘制图形及人机交互提供了便利条件。但是在日常工作及生活中,人们依然倾向于使用白板、黑板、纸张或便携式电子设备等进行实时手绘流程图,再通过人工识别与操作,将手绘草图转化为可编辑图形。传统的人工转化进行人机交互的方式效率较低,转化时不仅需要用户对于绘图软件本身具有较强的熟悉,包括软件的自身布局,软件中各类形状的名称及位置,软件及其形状的各个属性的功能及调节方式等,还需要人工手动使用鼠标拖动各个形状进行使用,同时还需要记忆大量快捷键进行快速操作,严重降低了用户的绘图效率,使得用户无法花费更多的时间在流程图本身质量上,不能完成满足人机交互的需求,因此探索自然、高效、智能化的人机交互方式已成为计算机研究领域的重要议题之一。
[0003]在人机交互领域中,端到端的功能实现是最为便利的人机交互通道,备受关注。用户仅需将原始需求输入,端到端的功能系统即可实时输出用户最终需求范式,如直接输入原始手绘流程图图片,端到端的功能系统实时输出最终指定软件的可编辑图形。用户仅需根据自身额外需求对最终输出进行小范围精确改动。因此,如何实现利用原始手绘流程图图片直接生成可编辑图形的端到端功能系统,以大幅提高软件绘图人机交互操作的效率,是亟需解决的技术问
【技术保护点】
【技术特征摘要】
1.手绘场景下的图像识别与智能转化方法,其特征在于,包括以下步骤;步骤1:手绘流程草图采集:通过相机实时拍摄,实时扫描当前的手绘流程草图,或直接软件绘制流程图,采集当前时刻的手绘流程图像信息,输入至计算机,实现实时的手绘流程图采集与传输;步骤2:获取步骤1得到的手绘流程图像信息,通过定位形状位置和识别形状类别步骤,最终输出各个预测形状的位置坐标框、形状类型、箭头关键点位置及箭头所属形状数据;步骤3:获取步骤2的预测形状的位置坐标框、形状类型、箭头关键点位置及箭头所属形状数据,通过计算机绘图软件智能展示,输出指定软件的可编辑图形;步骤4:OCR模块搭载,通过预留外部接口,实现与OCR功能包的集成进行手绘流程图文字识别,并与软件接口对接,将步骤3得到的指定软件的可编辑图形,实现文字自动生成,最终输出完整的可编辑图形。2.根据权利要求1所述的手绘场景下的图像识别与智能转化方法,其特征在于,所述步骤1中手绘流程图像信息包括相机拍摄的原始RGB图像、经过扫描软件二值化加工的预处理图像,或在电子设备上直接绘制生成的图片经过编程语言读入的三维矩阵。3.根据权利要求1所述的手绘场景下的图像识别与智能转化方法,其特征在于,所述步骤2中定位形状位置和识别形状类别,包括形状坐标检测、形状类型识别、箭头特征点定位、箭头指向对象估计、设置置信度阈值;形状坐标检测:将采集的原始手绘流程图像信息输入至深度级联神经网络模型中进行特征提取,然后进行形状候选框筛选,输出每个形状的位置坐标框;其中,所述深度级联神经网络模型包括用于提取图像全局特征的FPN网络和用于生成候选框的RPN网络;形状类型识别:将所述每个形状的位置坐标框,并联神经网络模型中进行特征提取,然后进行形状分类,结合形状位置坐标框输入至输出最终位置的形状框;其中,所述并联神经网络模型包括用于形状坐标框回归、形状类型预测和关键点回归的三并行网络组成,三者都是由全连接网络组成;形状位置坐标框是由(x1,y1,x2,y2)的四元组组成,表示坐标框的左上角和右下角坐标,而最终位置的形状框是由(box,class,score)的三元组组成,其中box表示前述的形状位置坐标框,class表示该形状的类型,score表示该形状为类型class的概率;箭头特征点定位:将箭头转化为连接形状对象的因果关系,并使用始末特征点表示,通过约束模型对输出的最终位置的箭头形状框中的特征点进行检测,标注出最终位置的箭头形状框中的箭头二维特征关键点,实现箭头特征点定位;其中,所述的连接形状对象包括形状坐标检测及形状类型识别所预测的所有形状;因果关系指预测的箭头关键点的对应关系,靠近箭头起始的关键点为因,靠近箭头终点的关键点为果;所述的约束模型主要包括边框限制,即通过比较关键点与对应的箭头坐标框,限制关键点位于箭头坐标框内;箭头指向对象估计:对于输出的每一个箭头形状框中的特征点与其周边的形状,根据形状位置、关键点位置以及像素坐标系下两者之间存在的几何关系,使用智能算法估计箭头关键点的归属关系;其中,箭头关键点的归属关系是指关键点对应到具体预测的形状;智能算法估计主要
包括形状确定与最短距离:形状确定通过预测的矩形坐标框与预测类型形状的对称性,确定形状的顶点坐标,从而确定边;最短距离通过计算箭头关键点到各个形状的边的最短距离,确定关键点对应的具体形状;设置置信度阈值:对比各个预测形状在整体图像上的坐标位置及其置信度,结合箭头指向对象估计的确信度,选取形状位置合理、箭头指向对象明确,置信度高于设定阈值的识别结果作为最终的形状的位置坐标框、形状类型、箭头关键点位置及箭头所属形状数据;所述步骤3中计算机绘图软件智能展示,包括深度神经网络与软件接口实现、箭头关键点因果转换、整体轮廓智能排版;深度神经网络与软件接口实现:结合计算机绘图软件特定文档接口输入要求,提取神经网络原始输出,并将其转化为软件接口所规定的输入形式,编写接口函数自动根据预测形状生成可编辑图形;其中,深度神经网络的原始输出指前述的并联神经网络的输出,包括形状坐标框、形状类型和箭头关键点;箭头关键点因果转换:通过箭头指向对象估计,进而推断出对象之间的连接关系,起始点为因,终止点为果,编写函数实现形状对象间的关系连接;整体轮廓智能排版:对于生成的原始可编辑图形,对比各个形状的绝对与相对位置,采用启发式聚类算法实现横向与纵向对齐;形状大小标准化、一致化完成自动智能排版,同时提供软件内置智能排版算法进行选择;其中,形状的绝对位置是形状的坐标所表示的位置;形状的相对位置是形状在整体下的方位位置。4.根据权利要求3所述的手绘场景下的图像识别与智能转化方法,其特征在于,所述步骤2中形状坐标检测具体为:将采集的手绘流程图的图像通过形状/背景二分类器输出得到各个可能含有形状的位置坐标框,将得到的各个可能含有形状的位置坐标框输入至深度级联神经网络模型中的第一个子网络结构中进行特征提取,输出众多候选框,对输出的候选框使用边界框回归方法合并重叠的候选框,得到校正后的候选框;校正后的候选框分为两部分,第一部分用来判断当前校正后的候选框内图像是否存在形状,第二部分表示当前校正后的候选框内形状位置相对真实目标的形状框位置的偏移;将通过第一个子网络得到校正后的候选框作为输入,通过深度级联神经网络模型中的第二个子网络结构,输出粗预测的候选框,使用边界框回归方法合并重叠的粗预测的候选框,得到第二次校正后的候选框;将通过第二个子网络结构得到的第二次校正后的候选框作为输入,通过深度级联神经网络模型中的第三个子网络结构,输出最终位置的形状位置坐标框。5.根据权利要求3所述的手绘场景下的图像识别与智能转化方法,其特征在于,所述步骤2中形状类型识别具体为:通过第三个子网络结构得到的形状位置坐标框输入至深度神经网络模型中进行特征提取,通过形状多分类器输出得到该形状位置框内为各个形状的概率,将得到的各个形状所属的概率通过softmax层进行归一化,计算如下式所示:
式中:z
i
、z
j
为分类器原始输出,p
i
为归一化概率,N为形状类别总数。所述形状/背景二分类器的交叉熵损失函数表达式如下:表达式如下:式中:为形状/背景的实际标签,p
i
为形状的概率;所述边界框回归方法使用非极大值抑制合并重叠的候选框,得到校正后的候选框,边界框回归方法通过计算候选框的背景坐标与实际的背景坐标之间的欧式距离,计算回归损失函数表达式如下:表达式如下:式中:表示欧氏距离的L2损失函数,表示第i个真实形状框的位置坐标,表示对应的第i个预测形状框的位置坐标,R4表示四维实数空间;所述形状多分类器的交叉熵损失函数表达式如下:式中:为该形状框下...
【专利技术属性】
技术研发人员:蔡建峰,刘焕宇,张庭嘉,张亮,屈书毅,朱光明,高尔扬,李宁,
申请(专利权)人:西安电子科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。