一种真实场景形变数字图片生成方法及系统技术方案

技术编号:34692803 阅读:59 留言:0更新日期:2022-08-27 16:27
本发明专利技术公开了一种真实场景形变数字图片生成方法及系统,根据真实场景图片获取数字图片,并对所述数字图片进行二值化处理;根据二值化图片中白色块的面积获取图片中的数字,并对数字进行霍夫直线检测,获得仿射变换后的多个关键点,并处理得到仿射变换前的多个所述关键点,根据仿射变换前后的多个关键点的坐标计算出仿射变换参数;根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围;根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。仅使用少量真实场景的数字图片进行分析,自动获得实际数字大致的形变程度和范围,以减少调试形变参数的时间。试形变参数的时间。试形变参数的时间。

【技术实现步骤摘要】
一种真实场景形变数字图片生成方法及系统


[0001]本专利技术涉及OCR
,具体涉及一种真实场景形变数字图片生成方法及系统。

技术介绍

[0002]在人工智能领域,OCR(Optical CharacterRecognition)是计算机图形学中的一个方向。传统的OCR有两个方向包括文本检测和文本识别。文本检测用于从图片中检测出文字所在的位置,而文本识别用于从文本检测框中识别出文字的内容。针对图片中的文字存在于纸面还是真实场景,印刷体还是手写体会使用不同的方法来进行处理。特别是对于真实场景中的文字,由于文字和拍摄位置的不同,文字所呈现的形变(多为正常情况下仿射变换后的效果)也会不同,这使得文字的识别变得困难。因为要进行真实场景的文字识别,需要大量不同形变程度且符合当前场景的文字数据进行训练,而这些数据的获取仅通过人工拍摄和标注的方式成本过高且太过缓慢,所以必须使用文本合成来制造数据。而进行文本合成时,需要合成的数据涵盖真实场景中文字大致的形变程度和范围,这需要花费大量时间来进行仿射变换参数的调试。

技术实现思路

[0003本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种真实场景形变数字图片生成方法,其特征在于,所述方法包括:根据真实场景图片获取数字图片,并对所述数字图片进行二值化处理;根据二值化图片中白色块的面积获取图片中的数字,并对数字进行霍夫直线检测,获得仿射变换后的多个关键点,并处理得到仿射变换前的多个所述关键点,根据仿射变换前后的多个关键点的坐标计算出仿射变换参数;根据多张真实场景图片计算得到的仿射变换参数确定各仿射变换参数的取值范围;根据各仿射变换参数的取值范围通过随机取值和图片仿射变换生成多张形变数字图片。2.根据权利要求1所述的一种真实场景形变数字图片生成方法,其特征在于,根据真实场景图片获取数字图片,具体包括:对现有需要进行数字图片生成的真实数字编号进行拍摄,尽量包含全部形变程度和范围;通过手工截取图片中数字部分或者使用OCR检测模型检测数字位置并截取图片得到数字图片。3.根据权利要求1所述的一种真实场景形变数字图片生成方法,其特征在于,对数字进行霍夫直线检测,获得仿射变换后的多个关键点,具体包括:对于数字顶部或底部都是直线的情况,通过白色块的最高点找到数字顶端的直线段a,通过白色块最低点找到数字低端的直线段b,获取两个直线段中较短的直线段并取其中点计为关键点b;对于顶部或底部有一处不是直线的情况,如果数字底部是弧形的不是直线,则作一条垂直于顶部直线段a的直线,并使这条直线在白色块中最长,垂线与数字底部的交点即为关键点b,数字顶部是弧形的情况也同样处理;对于顶部和底部都不是直线的情况忽略;得到的直线段a的两端点和一个点b作为图片仿射变换后的3个关键点。4.根据权利要求3所述的一种真实场景形变数字图片生成方法,其特征在于,并处理得到仿射变换前的多个所述关键点,具体包括:将直线段a左端的点作为固定点;将直线段a右端的点旋转到与左端的点水平的位置得到旋转后的右端点位置;旋转b点到直线段a的垂线,使其竖直,从而得到旋转后的b点位置;最终得到仿射变换前的3个关键点。5.根据权利要求4所述的一种真实场景形变数字图片生成方法,其特征在于,根据仿射变换前后的多个关键点的坐标计算出仿射变...

【专利技术属性】
技术研发人员:孙其凡
申请(专利权)人:上海影谱科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1