中文训练图像生成方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:20178698 阅读:37 留言:0更新日期:2019-01-23 00:58
本发明专利技术公开一种中文训练图像生成方法、装置、计算机设备及存储介质,该中文训练图像生成方法包括:获取训练图像生成请求,训练图像生成请求包括场景应用需求;基于场景应用需求,从预先创建好的背景图像库中获取原始背景图像;从预先创建好的中文字库中获取中文字;对原始背景图像进行透明化处理,获取第一透明图像;将中文字填充到第一透明图像上,获取第二透明图像,采用中文字对第二透明图像进行标注,获取与第二透明图像对应的文本文件;对第二透明图像增加噪点,获取第三透明图像,对第三透明图像和原始背景图像进行叠加处理,获取待训练图像,将待训练图像与文本文件关联存储,该过程无需人工采集训练图像,提高效率。

Chinese Training Image Generation Method, Device, Computer Equipment and Storage Media

The invention discloses a Chinese training image generation method, device, computer equipment and storage medium. The Chinese training image generation method includes: acquiring training image generation request, training image generation request including scene application requirement; acquiring original background image from pre-created background image database based on scene application requirement; and obtaining pre-created Chinese font library from pre-created Chinese font library. Chinese characters are captured; the original background image is transparently processed to obtain the first transparent image; Chinese characters are filled into the first transparent image to obtain the second transparent image, and Chinese characters are used to annotate the second transparent image to obtain the text files corresponding to the second transparent image; noise points are added to the second transparent image to obtain the third transparent image and the third transparent image to obtain the third transparent image. The image and the original background image are superimposed to acquire the image to be trained, and the image to be trained is stored with the text file. This process does not need to collect the training image manually to improve the efficiency.

【技术实现步骤摘要】
中文训练图像生成方法、装置、计算机设备及存储介质
本专利技术涉及图像识别
,尤其涉及一种中文训练图像生成方法、装置、计算机设备及存储介质。
技术介绍
随着信息时代的飞速发展,人工智能技术也被人们逐渐应用到各种实际场景中。其中,OCR(OpticalCharacterRecognition,光学字符识别)技术是目前对图像文件进行分析识别处理,获取文字及版面信息最常用的技术。但在采用OCR识别技术训练图像识别模型时,需要人工收集训练图像并对其进行标注以形成训练集,然后基于标注好的训练集进行模型训练,耗费时间且人力成本高。
技术实现思路
本专利技术实施例提供一种中文训练图像生成方法、装置、计算机设备及存储介质,以解决目前图像识别模型训练过程中,需要人工收集训练图像并对其进行标注以形成训练集,耗费时间且人力成本高的问题。一种中文训练图像生成方法,包括:获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;对所述原始背景图像进行透明化本文档来自技高网...

【技术保护点】
1.一种中文训练图像生成方法,其特征在于,包括:获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;对所述原始背景图像进行透明化处理,获取第一透明图像;将所述中文字填充到所述第一透明图像上,获取第二透明图像,采用所述中文字对所述第二透明图像进行标注,获取与所述第二透明图像对应的文本文件;对所述第二透明图像增加噪点,获取第三透明图像,对所述第三透明图像和所述原始背景图像进行叠加处理,获取待训练图像,将所述待训练图像与所述文本文件关联存储...

【技术特征摘要】
1.一种中文训练图像生成方法,其特征在于,包括:获取训练图像生成请求,所述训练图像生成请求包括场景应用需求;基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字;对所述原始背景图像进行透明化处理,获取第一透明图像;将所述中文字填充到所述第一透明图像上,获取第二透明图像,采用所述中文字对所述第二透明图像进行标注,获取与所述第二透明图像对应的文本文件;对所述第二透明图像增加噪点,获取第三透明图像,对所述第三透明图像和所述原始背景图像进行叠加处理,获取待训练图像,将所述待训练图像与所述文本文件关联存储。2.如权利要求1所述的中文训练图像生成方法,其特征在于,所述基于所述场景应用需求,从预先创建好的背景图像库中获取与所述场景应用需求相对应的原始背景图像;从预先创建好的中文字库中获取与所述场景应用需求相对应的中文字,包括:若所述场景应用需求为第一应用需求,则从所述背景图像库中获取与所述第一应用需求相对应的原始背景图像,所述原始背景图像包括场景字段;基于所述场景字段,按照预设生成规则,从所述中文字库中获取与所述场景字段相对应的所述中文字;若所述场景应用需求为第二应用需求,则从所述背景图像库中随机获取原始背景图像,从所述中文字库中随机获取中文字。3.如权利要求2所述的中文训练图像生成方法,其特征在于,所述场景字段包括姓名字段;所述中文字库包括百家姓和中文一级字库;基于所述场景字段,按照预设生成规则,从所述中文字库中获取与所述场景字段相对应的所述中文字,包括:基于所述姓名字段,从所述百家姓中依序或者随机获取姓氏,从所述中文一级字库中依序或随机获取汉字;将所述姓氏和所述汉字拼接,获取与所述场景字段相对应的所述中文字。4.如权利要求1所述的中文训练图像生成方法,其特征在于,所述对所述原始背景图像进行透明化处理,获取第一透明图像,包括:将所述原始背景图像进行模式转换,获取模式图像;所述模式图像包括颜色参数;将所述模式图像的颜色参数设置为空,获取所述第一透明图像。5.如权利要求1所述的中文训练图像生成方法,其特征在于,所述将所述中文字填充到所述第一透明图像上,获取第二透明图像,包括:获取所述中文字对...

【专利技术属性】
技术研发人员:黄泽浩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1