一种流程图的查重方法技术

技术编号:35683760 阅读:14 留言:0更新日期:2022-11-23 14:27
本发明专利技术公开了一种流程图的查重方法,包括以下步骤:输入包含流程图的彩色图像文件,将彩色图像转换为二值图像;定义箭头模板;利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;计算待检测流程图与对比流程图之间的文本相似度和结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数。本发明专利技术的一种流程图的查重方法,通过分别计算待检测流程图和对比流程图之间的文本相似度和结构相似度,兼顾了文字和框架的查重,提高精度,优化查重效果,节省了大量的人力成本,为图文结合的相似度检测提供了更多的可能。多的可能。多的可能。

【技术实现步骤摘要】
一种流程图的查重方法


[0001]本专利技术涉及图像处理领域,尤其涉及一种流程图的查重方法。

技术介绍

[0002]一个优秀论文检测系统就需要满足两个条件:一是比对数据库得全面;二要计算相似率的算法合理,能找出论文中真正相似的内容。
[0003]传统的查重技术如PaperPass和知网主要针对段落中的文字内容与数据库进行比对,通过界定阈值从而达到查重效果。然而就目前而言,有关流程图的查重系统依旧不是很完善,使学术诚信的建立存在漏洞。
[0004]流程图中包含文字与流程框架两部分,在查重过程中不仅需要关注文字部分,还需要关注它的结构性质,这是传统查重方法所不具备的。

技术实现思路

[0005]有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是现有的查重方法不适用于流程图的查重,流程图中的文字和结构的查重功能均无法实现。因此,本专利技术提供了一种流程图的查重方法,通过分别计算待检测流程图和对比流程图之间的文本相似度和结构相似度,兼顾了文字和框架的查重,提高精度,优化查重效果,节省了大量的人力成本,为图文结合的相似度检测提供了更多的可能。
[0006]为实现上述目的,本专利技术提供了一种流程图的查重方法,包括以下步骤:
[0007]步骤一、输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像;
[0008]步骤二、定义上、下、左、右四个方向的箭头模板;
[0009]步骤三、利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;
[0010]步骤四、搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;
[0011]步骤五、计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列;
[0012]步骤六、计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数。
[0013]进一步地,输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像,具体包括以下步骤:
[0014](1)输入包含流程图的彩色图像文件,彩色图像文件中每个像素包含R,G和 B三种颜色值;
[0015](2)调用百度AI接口,读取彩色图像文件,提取流程图中文本框内的句子,以及句子所在的区域的左上角和右下角坐标,并对每句句子按其提取顺序依次编号;
[0016](3)用文本框内颜色填充句子所在区域;
[0017](4)将图像中符合R,G和B三种颜色值都大于200的像素用0表示,其余的像素值用1表示,将彩色图像件转换为二值图像。
[0018]进一步地,定义上、下、左、右四个方向的箭头模板,具体包括以下步骤:
[0019](1)定义7*7大小的矩阵,将矩阵中位于第1行第4列元素,第2行第3列开始向右3个元素,第3行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向上方向的箭头模板;
[0020](2)定义7*7大小的矩阵,将矩阵中位于第7行第4列元素,第6行第3列开始向右3个元素,第5行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向下方向的箭头模板;
[0021](3)定义7*7大小的矩阵,将矩阵中位于第4行第1列元素,第3行第2列开始向下3个元素,第2行第3列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向左方向的箭头模板;
[0022](4)定义7*7大小的矩阵,将矩阵中位于第4行第7列元素,第3行第6列开始向下3个元素,第2行第5列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将矩阵定义为向右方向的箭头模板。
[0023]进一步地,利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点,具体包括以下步骤:
[0024](1)将步骤一输入的包含流程图的彩色图像转换为灰度图像,利用Harris角点检测法确定灰度图像中的角点;
[0025](2)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向上方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向上方向的汉明距离;
[0026](3)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向下方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向下方向的汉明距离;
[0027](4)以角点向下第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向左方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向左方向的汉明距离;
[0028](5)以角点向下第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将像素矩阵与向右方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为 1,并将7*7矩阵上的所有位置的汉明距离相加,得到向右方向的汉明距离;
[0029](6)在向上,向下,向左,向右四个方向的汉明距离中取最小的距离值,如果该距离值小于阈值T1,则该角点为位于箭头的角点,否则该角点不是位于箭头的角点。
[0030]进一步地,搜索与箭头相邻的文本框,建立文本框间的邻接矩阵,具体包括以下步
骤:
[0031](1)对于有n个文本框的流程图,定义n*n大小的零矩阵作为邻接矩阵;
[0032](2)将步骤一得到的二值图像中,所有句子所在区域的像素值均修改为2,从步骤三中得到的位于箭头的角点出发,沿着箭头的连接线的两端搜索,一旦直到找到像素值为2的点,则记录该点所属文本框中包含句子的编号;
[0033](3)对于同一个箭头所关联的两个文本框,按其包含句子的编号i和j,将邻接矩阵中第i行第j列的元素值定义为1,同时,将第j行第i列的元素值也定义为 1,建立文本框间的邻接矩阵。
[0034]进一步地,计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列,具体包括以下步骤:
[0035](1)对于待检测流程图P1和对比流程图P2,分别按步骤一至步骤四建立文框间的邻接矩阵;
[0036](2)计算P1和P2本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种流程图的查重方法,其特征在于,包括以下步骤:步骤一、输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像;步骤二、定义上、下、左、右四个方向的箭头模板;步骤三、利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点;步骤四、搜索与箭头相邻的文本框,建立文本框间的邻接矩阵;步骤五、计算待检测流程图与对比流程图之间的文本相似度,并记录相似编号序列;步骤六、计算待检测流程图与对比流程图之间的结构相似度,并将文本相似度与结构相似度的乘积作为待检测流程图的重复分数。2.如权利要求1所述的一种流程图的查重方法,其特征在于,输入包含流程图的彩色图像文件,提取流程图中文本框内的句子和坐标,用文本框内颜色填充句子所在区域,并将彩色图像转换为二值图像,具体包括以下步骤:(1)输入包含流程图的彩色图像文件,所述彩色图像文件中每个像素包含R,G和B三种颜色值;(2)调用百度AI接口,读取所述彩色图像文件,提取流程图中文本框内的句子,以及句子所在的区域的左上角和右下角坐标,并对每句句子按其提取顺序依次编号;(3)用文本框内颜色填充句子所在区域;(4)将图像中符合R,G和B三种颜色值都大于200的像素用0表示,其余的像素值用1表示,将彩色图像件转换为二值图像。3.如权利要求2所述的一种流程图的查重方法,其特征在于,定义上、下、左、右四个方向的箭头模板,具体包括以下步骤:(1)定义7*7大小的矩阵,将所述矩阵中位于第1行第4列元素,第2行第3列开始向右3个元素,第3行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向上方向的箭头模板;(2)定义7*7大小的矩阵,将所述矩阵中位于第7行第4列元素,第6行第3列开始向右3个元素,第5行第2列开始向右5个元素,第4行第1列开始向右7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向下方向的箭头模板;(3)定义7*7大小的矩阵,将所述矩阵中位于第4行第1列元素,第3行第2列开始向下3个元素,第2行第3列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向左方向的箭头模板;(4)定义7*7大小的矩阵,将所述矩阵中位于第4行第7列元素,第3行第6列开始向下3个元素,第2行第5列开始向下5个元素,第1行第4列开始向下7个元素的数值设置为1,其余元素设置为0,将所述矩阵定义为向右方向的箭头模板。4.如权利要求3所述的一种流程图的查重方法,其特征在于,利用Harris角点检测法确定流程图图像中的角点,根据角点邻域与箭头模板之间的汉明距离识别位于箭头的角点,具体包括以下步骤:(1)将步骤一输入的包含流程图的彩色图像转换为灰度图像,利用Harris角点检测法确定灰度图像中的角点;
(2)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将所述像素矩阵与向上方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为1,并将7*7矩阵上的所有位置的汉明距离相加,得到向上方向的汉明距离;(3)以角点向右第3个像素为中心,从步骤一得到的二值图像中取7*7大小的像素矩阵,将所述像素矩阵与向下方向的箭头模板计算汉明距离,若两个矩阵相同位置的像素值相同,则汉明距离为0,若矩阵相同位置的像素值不同,则汉明距离为...

【专利技术属性】
技术研发人员:马燕杨雨雪周鑫杨培烨
申请(专利权)人:上海师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1