当前位置: 首页 > 专利查询>谢骏专利>正文

适用于物流行业的智能单证结构化提取方法技术

技术编号:23766368 阅读:43 留言:0更新日期:2020-04-11 20:02
本发明专利技术公开了适用于物流行业的智能单证结构化提取方法,包括以下步骤:S1:机器学习;a:半监督机器学习,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能;b:人工纠错,已知数据和其一一对应的标签,训练一个智能算法;c:规则调优;S2:结构化提取引擎包含基于机器学习以及其它方式定义的识别模型;S3:建立物流行业单证录入时常见录入错误纠错库。本发明专利技术主要针对适用于物流行业的智能单证结构化提取方法,本发明专利技术通过引入完整的纠错系统和半监督机器学习,解决实际使用过程中物流类单据提取结果人工标注答案不准确,OCR识别准确率无法满足智能单证提取的实际应用需求。

A structured method of intelligent document extraction for logistics industry

【技术实现步骤摘要】
适用于物流行业的智能单证结构化提取方法
本专利技术涉及物流行业
,具体为适用于物流行业的智能单证结构化提取方法。
技术介绍
现有的通用单证识别方法,主要是基于OCR光学技术针对特定领域的文件进行识别和提取,但是单证识别面临如下的困难:单据的样式非常多,某些单据既没有任何关键词,也没有任何固定的绝对位置关系,只能从语义和版式角度进行内容提取分析;虽然经过训练,OCR全局识别率可以提高到95%左右,但是结构化提取并不需要分析并获取全部的数据,当原始图片在某些关键位置的模糊、字号变小等因素会导致与智能提取相关区域的OCR识别率可能会降低到90%,因此如何应用更多的信息进行模糊适应成为提高识别准确率的一个关键手段;人工是最容易出错的环节,由人工标注的正确答案准确率大约在75%左右,因此不能简单粗暴的采用人工标记加机器学习的方式来训练模型,必须要寻找一条新的机器学习的途径;在实际使用场景中,受到图片质量的影响,OCR识别率只能达到95%左右,单证结构化提取只需要提取图片的部分内容,这部分内容经常是在印刷表格之上再打印本文档来自技高网...

【技术保护点】
1.适用于物流行业的智能单证结构化提取方法,其特征在于,包括以下步骤:/nS1:机器学习;/na:半监督机器学习,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,基于半监督学习将物流行业非结构化单证对应结构化提取的少量人工标注答案进行鉴别,快速警示疑似人工标注错误,同时利用部分已标记样本和部分未标记样本训练提取引擎;疑似人工标注错误可以是整体标注错误、部分片段标注错误、半监督学习中发现的少量孤立样本和半监督学习中发现的针对某个片段的少量孤立样本中的一种或几种;/nb:人工纠错,为后续的规则调优准备了大量的正确标记样本,人工纠错的路径为:由半监督学习训练的提取引擎对大量样本进行标记,...

【技术特征摘要】
1.适用于物流行业的智能单证结构化提取方法,其特征在于,包括以下步骤:
S1:机器学习;
a:半监督机器学习,让学习器不依赖外界交互、自动地利用未标记样本来提升学习性能,基于半监督学习将物流行业非结构化单证对应结构化提取的少量人工标注答案进行鉴别,快速警示疑似人工标注错误,同时利用部分已标记样本和部分未标记样本训练提取引擎;疑似人工标注错误可以是整体标注错误、部分片段标注错误、半监督学习中发现的少量孤立样本和半监督学习中发现的针对某个片段的少量孤立样本中的一种或几种;
b:人工纠错,为后续的规则调优准备了大量的正确标记样本,人工纠错的路径为:由半监督学习训练的提取引擎对大量样本进行标记,由机器学习算法判定是否需要启用人工纠错、系统可通过机器学习提供疑似正确答案供人工选择;
c:规则调优,设置已知数据和其一一对应的标签,训练一个智能算法,将输入数据映射到标签的过程;
S2:结构化提取引擎包含基于机器学习以及其它方式定义的识别模型、基于大数据挖掘获取的智能纠错知识库与对于OCR结果,分析OCR提取的置信度,评出合适的提取结果;
S3:建立物流行业单证录入时常见录入错误纠错库,基于大数据挖掘的智能纠错库有两个领域的纠错,分别为:录入人员粗心引入的错误与OCR识别错误;单证提取纠错系统的组成为:单证内容初步提取、单证结构纠错、常见录入错误纠错、常见OCR错误纠错、专家知识库纠错与人工纠错。


2.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S1的c中,规则调优的标签数据从两个方面获取,分别有:学习阶段人工标记的样本数据;上线系统中发现的各种单证,经半监督学习训练的提取引擎进行标记以及人工校正后引入规则调优模块。


3.根据权利要求1的适用于物流行业的智能单证结构化提取方法,其特征在于:在S2中,基于机器学习以及其它方式定义的识别模型,在专家知识库的辅助下快速分析和提取结构化内容;基于大数据挖掘获取的智能纠错知识库,对结构化内容进行规范、纠正,避免因录入人员人工误差导致的原始信息错误;对于OCR结果,分析OCR提取的置信度,对于那些置信度低于阈值的结构化内容进行区域位置信息标记,为后续的人工疑似分析提供数据支持。


4.根据权利要求1的适用于物流行业...

【专利技术属性】
技术研发人员:庄骏徐芳
申请(专利权)人:谢骏
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1