一种基于提单扫描件大数据的单号识别方法及装置制造方法及图纸

技术编号:27007038 阅读:20 留言:0更新日期:2021-01-08 17:11
本发明专利技术公开了一种基于提单扫描件大数据的单号识别方法及装置,属于大数据处理技术领域,包括卷积神经网络(CNN)模型、投票机制、图像分割技术,所述卷积神经网络(CNN)模型的数量为多个,且多个卷积神经网络(CNN)模型基于提单扫描件大数据建立分类识别模型,所述投票机制进行提单扫描件分类识别。本发明专利技术中,采用多模型进行提单扫描件所属船公司的分类识别,按多数投票规则获取分类结果,可充分提升分类识别的效果,可对新增的提单扫描件建立识别模型的迭代更新机制,有效的保持模型的性能提升,进而对提单扫描件进行精准识别,根据识别结果自动进行提单扫描件的重命名,方便其他业务的直接调用,可直接作为文件输出进行存档。

【技术实现步骤摘要】
一种基于提单扫描件大数据的单号识别方法及装置
本专利技术属于大数据处理
,尤其涉及一种基于提单扫描件大数据的单号识别方法及装置。
技术介绍
随着外贸出口、海外电商、跨境物流的迅速发展,海运作为主流的货物运输方式之一,呈现日益增长的趋势,海运提单作为海上运输的重要依据,是查询、支付等环节的关键要素。随着大数据及人工智能技术的发展,通过海运提单扫描件大数据建立专项数据集,基于深度学习识别技术进行提单扫描件分类及单号识别,可有效替代传统的人工分类录入环节,提高工作效率。在实际应用中,船公司一般会下发纸质提单文件给托运人,后续进行扫描、录入、归档等业务流程。传统的操作方式一般是人工进行,这需要有一定业务经验的操作员进行提单的扫描、归类、单号录入等工作,对于不同的船公司可能还涉及单号间的关联处理,这都要求较多的人工介入,在面临大量提单扫描录入时往往难以快速进行规模化收录,带来了较多的时间及管理成本,且现阶段的提单扫描件收录大多依赖于业务员的人工操作,但是面对大批量的提单扫描件数据,人工操作的方式在处理效率和准确率上存在较大的瓶颈,特别是长时间重复性工作引发的误操作,不利于提单扫描件的有效归档,因此,现阶段亟需一种基于提单扫描件大数据的单号识别方法及装置来解决上述问题。
技术实现思路
本专利技术的目的在于:为了解决传统的操作方式一般是人工进行,这需要有一定业务经验的操作员进行提单的扫描、归类、单号录入等工作,对于不同的船公司可能还涉及单号间的关联处理,这都要求较多的人工介入,在面临大量提单扫描录入时往往难以快速进行规模化收录,带来了较多的时间及管理成本,且现阶段的提单扫描件收录大多依赖于业务员的人工操作,但是面对大批量的提单扫描件数据,人工操作的方式在处理效率和准确率上存在较大的瓶颈,特别是长时间重复性工作引发的误操作,不利于提单扫描件有效归档的问题,而提出的一种基于提单扫描件大数据的单号识别方法及装置。为了实现上述目的,本专利技术采用了如下技术方案:一种基于提单扫描件大数据的单号识别装置,包括卷积神经网络(CNN)模型、投票机制、图像分割技术,所述卷积神经网络(CNN)模型的数量为多个,且多个卷积神经网络(CNN)模型基于提单扫描件大数据建立分类识别模型,所述投票机制进行提单扫描件分类识别,所述图像分割技术选择对应的提单扫描件模板进行图像分割,得到单号区域图像,所述卷积神经网络(CNN)模型包括CNN字符识别模型,所述CNN字符识别模型对单号区域图像进行识别。一种基于提单扫描件大数据的单号识别方法,该方法包括如下步骤:步骤S1:按提单所属的船公司制定分类标签以及提单区域模板图像;步骤S2:获取海运提单扫描件大数据,垂直方向裁剪前1/3的区域图像,制作训练集H;步骤S3:对海运提单扫描件训练集H进行标注,包括船公司类别以及提单字符内容;步骤S4:利用图像分割技术进行提单字符的分割、得到A~Z、0~9的字符数据集M;步骤S5:利用ResNet50对H数据集进行分类训练,得到分类识别模型R1;步骤S6:利用InceptionV3对H数据集进行分类训练,得到分类识别模型R2;步骤S7:利用Densenet201对H数据集进行分类训练,得到分类识别模型R3;步骤S8:利用AlexNet对M数据集进行分类训练,得到字符识别模型T;步骤S9:对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代;步骤S10:获取新的海运提单扫描件图片,调用模型R1、R2、R3识别船公司分类,按多数投票规则获取提单扫描件的船公司类别;步骤S11:通过提单扫描件模板获取单号区域图像,调用模型T进行字符识别,得到单号;步骤S12:根据船公司和提单号对提单扫描件进行重命名,按业务规则进行存储。作为上述技术方案的进一步描述:所述步骤S1中分类标签依据提单所属船公司来设定,且所述提单区域模板图像依据单号的候选区域来设定。作为上述技术方案的进一步描述:所述步骤S2中对提单扫描件进行区域裁剪,且所述区域裁剪依据是不同船公司提单扫描件的差别主要集中在图像头部区域的布局、Logo等,且同一家船公司的提单布局相对固定。作为上述技术方案的进一步描述:所述步骤S3中对提单数据集进行标注包括类别标注、提单字符内容标注,且所述类别标注对应于S1设置的船公司类别标签,单号内容是A~Z、0~9的字符组合。作为上述技术方案的进一步描述:所述步骤S4中利用提单区域模板图像进行预处理得到候选区域,并通过图像二值化、连通域分析、形态学滤波方法对单号进行分割,得到A~Z、0~9的字符集合。作为上述技术方案的进一步描述:所述步骤S9中对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代过程如下:步骤S91:选取新增的提单扫描件并垂直方向裁剪前1/3的区域图像,调用识别模型R1、R2、R3,得到船公司分类结果,基于对应的提单区域模板图像并进行字符分割,调用识别模型T,得到提单识别结果;步骤S92:对船公司分类结果、提单识别结果进行人工筛选核查,将不正确的图片按步骤S3进行船公司类别标注、提单字符内容标注,得到图片集Z;步骤S93:将图片集Z按照步骤S5~S8进行模型再训练并更新得到船公司识别模型R1、R2、R3,字符识别模型T;步骤S94:重复步骤S91-步骤S93,重复本优化过程。综上所述,由于采用了上述技术方案,本专利技术的有益效果是:1、本专利技术中,以提单扫描件作为输入,自动进行图像分析,处理方式简便,不额外增加工程成本,提单扫描件自动进行分类及字符识别得到船公司、提单字符内容,按规则进行重命名,只需人工进行结果核验,降低人工成本,提高工作效率,采用多模型进行提单扫描件所属船公司的分类识别,按多数投票规则获取分类结果,可充分提升分类识别的效果,可对新增的提单扫描件建立识别模型的迭代更新机制,有效的保持模型的性能提升,进而对提单扫描件进行精准识别,根据识别结果自动进行提单扫描件的重命名,方便其他业务的直接调用,可直接作为文件输出进行存档。2、本专利技术中,通过对提单扫描件大数据深入分析,不同船公司提单扫描件的显著性差别主要集中在图像头部区域的布局、Logo等,这也是典型的分类依据,因此,本专利技术采用CNN模型进行扫描件分类识别,利用模板图像进行分割得到单号区域图像,通过CNN字符识别模型进行单号字符识别,最终,得到提单扫描件的类别、单号信息,可按规则进行重命名、存储、融入其他业务流程,降低人工成本,提高工作效率。3、本专利技术中,采用多个卷积神经网络(CNN)模型进行提单扫描件分类,利用图像模板定位方法分割单号区域,通卷积神经网络(CNN)模型进行字符识别,实现对提单扫描件的自动归类、单号识别,并结合业务需要按命名规则进行重命名,统一存储分析,自动进入整体的业务流程,减少生产管理成本。附图说明图1为本专利技术提出的一种基于提单扫描件本文档来自技高网...

【技术保护点】
1.一种基于提单扫描件大数据的单号识别装置,其特征在于,包括卷积神经网络(CNN)模型、投票机制、图像分割技术,所述卷积神经网络(CNN)模型的数量为多个,且多个卷积神经网络(CNN)模型基于提单扫描件大数据建立分类识别模型,所述投票机制进行提单扫描件分类识别,所述图像分割技术选择对应的提单扫描件模板进行图像分割,得到单号区域图像,所述卷积神经网络(CNN)模型包括CNN字符识别模型,所述CNN字符识别模型对单号区域图像进行识别。/n

【技术特征摘要】
1.一种基于提单扫描件大数据的单号识别装置,其特征在于,包括卷积神经网络(CNN)模型、投票机制、图像分割技术,所述卷积神经网络(CNN)模型的数量为多个,且多个卷积神经网络(CNN)模型基于提单扫描件大数据建立分类识别模型,所述投票机制进行提单扫描件分类识别,所述图像分割技术选择对应的提单扫描件模板进行图像分割,得到单号区域图像,所述卷积神经网络(CNN)模型包括CNN字符识别模型,所述CNN字符识别模型对单号区域图像进行识别。


2.根据权利要求1所述的一种基于提单扫描件大数据的单号识别方法,其特征在于,该方法包括如下步骤:
步骤S1:按提单所属的船公司制定分类标签以及提单区域模板图像;
步骤S2:获取海运提单扫描件大数据,垂直方向裁剪前1/3的区域图像,制作训练集H;
步骤S3:对海运提单扫描件训练集H进行标注,包括船公司类别以及提单字符内容;
步骤S4:利用图像分割技术进行提单字符的分割、得到A~Z、0~9的字符数据集M;
步骤S5:利用ResNet50对H数据集进行分类训练,得到分类识别模型R1;
步骤S6:利用InceptionV3对H数据集进行分类训练,得到分类识别模型R2;
步骤S7:利用Densenet201对H数据集进行分类训练,得到分类识别模型R3;
步骤S8:利用AlexNet对M数据集进行分类训练,得到字符识别模型T;
步骤S9:对船公司识别模型R1、R2、R3,字符识别模型T进行优化迭代;
步骤S10:获取新的海运提单扫描件图片,调用模型R1、R2、R3识别船公司分类,按多数投票规则获取提单扫描件的船公司类别;
步骤S11:通过提单扫描件模板获取单号区域图像,调用模型T进行字符识别,得到单号;
步骤S12:根据船公司和提单号对提单扫描件进行重命名,按业务规则进行存储。


3...

【专利技术属性】
技术研发人员:曲海洋刘衍琦方媛宋立新薛晨张耀刚张先李林茂刘晓寒王庆太唐萌李波
申请(专利权)人:山东文多网络科技有限公司
类型:发明
国别省市:山东;37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1