一种基于分布式环境的多线程并行图片处理方法技术

技术编号：38670161 阅读：13 留言：0更新日期：2023-09-02 22:48

本申请涉及信息技术软件工程领域，尤其涉及一种基于分布式环境的多线程并行图片处理方法。本发明专利技术具体包括，图片预处理，图片文字检测与识别，图片结构后处理操作；其中通过图片预处理进行图片文字信息位置矫正，待图片文字信息位置矫正完成后通过图片文字检测与识别进行图片中文字识别与文字特征提取，待文字特征提取完成后在图片结构后处理操作中，对图片文字进行指定需求下的结构化整合处理。本发明专利技术用以增强图片文字检测与识别中相似度较高的特征并抑制相似度较低的特征，从而提高图片文字检测与识别的精确度，为后续图片中的文字信息识别后的结构化处理问题提供精确的文字特征匹配基础。征匹配基础。征匹配基础。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于分布式环境的多线程并行图片处理方法

[0001]本申请涉及信息技术软件工程领域，尤其涉及一种基于分布式环境的多线程并行图片处理方法。

技术介绍

[0002]现阶段，随着大数据与人工智能的兴起，图片中的文字信息识别逐渐从传统的手动录入转化为自动检测的识别方式，光学字符识别技术应运而生。但是现有的图片处理过程中，通常通过消息中间件进行图片数据的一致性处理，此种处理方式在长任务流程下难以进一步实现任务的跟踪与补偿。同时现有的技术所识别得到的文字信息的结构化后处理较差，即使对技术进行的改进中通常仅能进行单行文字的识别，整体的识别效率较低，同时由于企业信息文件具有保密性，因此在使用相关方法进行企业信息文件识别时，应同时采用较高的安全风险管理措施。
[0003]公开号为CN101788849B的中国专利，提供了一种用于移动通讯设备系统的光学字符识别输入方法，此专利中通过将光学字符识别OCR技术与移动端相互结合，用以通过移动端直接进行图片的识别与文字信息的提取。公开号为CN114078205A的中国专利，提供了一种识别语料中光学字符识别错误的方法及装置，此专利中通过对识别到的语句进行分词，并将分词后得到的字符进行语言模型的对比，用以对字符中的错误语句进行筛选识别。但是上述专利中使用光学字符识别OCR技术进行图片中文字信息的处理时，通常偏重于文字信息的识别而非后续的文字信息的结构化处理与分类，此种技术方案虽然可以进行文字信息的识别，但是却不利于后续文字信息的使用，对文字信息的结构化处理不够完善。
[0004]...

【技术保护点】

【技术特征摘要】
1.一种基于分布式环境的多线程并行图片处理方法，其特征在于，具体包括，图片预处理，图片文字检测与识别，图片结构后处理操作；其中通过图片预处理进行图片文字信息位置矫正，待图片文字信息位置矫正完成后通过图片文字检测与识别进行图片中文字识别与文字特征提取，待文字特征提取完成后在图片结构后处理操作中，对图片文字进行指定需求下的结构化整合处理。2.根据权利要求1所述一种基于分布式环境的多线程并行图片处理方法，其特征在于，所述多线程并行图片处理方法中，首先建立主线程，所述主线程中包含多个长任务，并根据所述主线程发起任务流。3.根据权利要求2所述一种基于分布式环境的多线程并行图片处理方法，其特征在于，将单个所述长任务分解为多级子任务；其中，所述多级子任务为异步并行处理。4.根据权利要求3中所述一种基于分布式环境的多线程并行图片处理方法，其特征在于，所述子任务中，单个子任务执行成功后在数据库表中新增一条记录，同时所述记录的插入与更新必须和任务本身的数据操作在同一个数据库的事务机制内。5.根据权利要求1所述一种基于分布式环境的多线程并行图片处理方法，其特征在于，所述图片预处理，具体包括图片识别与方向分类，其中所述方向分类用以对识别到的图片进行大角度旋转矫正。6.根据权利要求5所述一种基于分布式环境的多线程并行图片...

【专利技术属性】
技术研发人员：唐伟，应君义，王刚，杨静懿，崔鹏飞，陈彬，高娜，项天成，
申请(专利权)人：上海聚均科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人