医疗票据ICR识别系统及其医疗票据识别方法技术方案

技术编号:18445490 阅读:49 留言:0更新日期:2018-07-14 10:36
本发明专利技术提供一种医疗票据ICR识别系统及其医疗票据识别方法,医疗票据ICR识别系统,包括:票据图片服务采集模块,对票据页面的关键点进行抓取;ICR预处理模块,对票据页面上的干扰图形进行过滤;ICR核心引擎模块,进行印刷体和手写体各类文字的识别;字库+行业数据库模块,存储印刷体和手写体的文字数据,供ICR核心引擎模块调用。实现了各式发票的自动化录入、存储和管理,提供高效、智能、便捷的个性化解决方案,能提高工作效率、降低成本。

ICR recognition system for medical bills and its medical bills recognition method

The invention provides a medical bill ICR identification system and its medical bill identification method, medical bill ICR identification system, including: Bill picture service collection module, grasping the key point of the bill page; ICR preprocessing module, filtering the interference figure on the bill page; ICR core engine module, printing The recognition of brush body and handwritten text; font library + industry database module, storage of printed and handwritten text data, for the ICR core engine module call. The automatic entry, storage and management of all kinds of invoices can be realized, which provides efficient, intelligent and convenient personalized solutions, which can improve work efficiency and reduce cost.

【技术实现步骤摘要】
医疗票据ICR识别系统及其医疗票据识别方法
本专利技术涉及一种医疗票据ICR识别系统,本专利技术还提供医疗票据识别方法,属于文字识别领域。
技术介绍
随着这些年我国医疗行业的不断发展和进步,其所拥有的体系和制度都已相对较为完整和完善了。但是,各大医院内部的财务管理上仍然各自为政。主要是目前医疗票据的管理较乱,由于各个医院出具的票据格式五花八门,票据在医院和报销单位之间的流转通过票据递交后,再由受理单位通过人工录入的方式进行的,不利于存档和后期检索,票据信息的采集,还是使用传统的人工录入方式,对照纸质票据,在电脑系统中逐项录入票据信息。每录一张票据往往需10分钟左右,而且工作人员长时间的单调录入,往往会发生一些录入错误等问题,导致后期处理跟踪方面难度增大。另外,传统的录入方式无法及时了解医院等社区卫生部门的运营情况,因此也就无法实现有效的监督和把控。并且人工录入的成本也较高。在医疗票据ocr识别方面,存在着信息录入难的问题,比如发票的多样性,模板多,文字生僻,因此如何提供一种专门针对医疗票据的文字和模板识别系统和方法也成为一种亟待解决的问题。
技术实现思路
本专利技术的目的在于提供一种快速、准确的医疗票据ICR识别系统及其医疗票据识别方法,以提高医疗票据的输入和识别效率。本专利技术采用了如下技术方案:本专利技术提供一种医疗票据ICR识别系统,其特征在于,包括:票据图片服务采集模块,对票据页面的关键点进行抓取;ICR预处理模块,对票据页面上的干扰图形进行过滤;ICR核心引擎模块,进行印刷体和手写体各类文字的识别;字库+行业数据库模块,存储印刷体和手写体的文字数据,供ICR核心引擎模块调用。本专利技术还提供一种利用上述的医疗票据ICR识别系统进行的医疗票据识别方法,其特征在于,包括如下步骤:步骤一、划分区域;步骤二,预处理,去渍、去章、去纹路;步骤三,进行文字识别并多次匹配字库,生成模板;步骤四,合成模板和文字。进一步,本专利技术的医疗票据识别方法,还可以具有这样的特征:在步骤二和步骤三之间,还具有步骤五:再次划分区域。进一步,本专利技术的医疗票据识别方法,还可以具有这样的特征:在步骤三中,对发票进行进行四次比对,两次比对普通字典库,两次比对医学字典库。进一步,本专利技术的医疗票据识别方法,还可以具有这样的特征:四次比对的数据每次成功识别分别设置25%,50%,75%,90%的通过率。进一步,本专利技术的医疗票据识别方法,还可以具有这样的特征:在步四之后还具有步骤六,将处理后的文字结果发送到云端进行校验。进一步,本专利技术的医疗票据识别方法,还可以具有这样的特征:其中,云端校验的过程中,对识别结果进行深度学习,修正识别的错误。进一步,本专利技术的医疗票据识别方法,还可以具有这样的特征:在步骤四之后,还具有步骤七,对于不准确的字符,进行高亮标记,提示人工干预。专利技术的有益效果实现了各式发票的自动化录入、存储和管理,提供高效、智能、便捷的个性化解决方案,不仅能提高工作效率、降低成本,还能实现真正的资源共享。另外,本专利技术的医疗票据ICR识别系统及其医疗票据识别方法,具有自动学习功能,能够迅速的学习并适应新的票据格式。另外,本专利技术的医疗票据ICR识别系统及其医疗票据识别方法,具有DP/BP神经网络,具有自动修正学习功能,能够做到自我完善,从而提高精准度。另外,采用整行文字直接识别的方式,无需字符分割,避免了字符分割中的误差。并且除了普通字典库,还具有医学字典库,因此能够对票据中的医学词汇进行更准确的识别。附图说明图1是系统构成的框图;图2是票据识别的流程图;图3是待进行图像识别的票据示意图。具体实施方式以下结合附图来说明本专利技术的具体实施方式。如图1所示,医疗票据ICR识别系统包括:票据图片采集模块11,ICR预处理模块12,ICR核心引擎模块13;字库+行业数据库模块14。票据图片采集模块11,对票据进行图片采集,可以采用扫描仪或者照相机或者摄像头等各种图像采集设备。ICR预处理模块,对票据页面上的干扰图形进行过滤,对图片进行去渍,去章和去纹路的处理。文中的ICR为:IntelligentCharacterRecognition的缩写,中文意思为智能字符识别。ICR核心引擎模块,图片进行区域划分,和去除干扰的污渍,图章和折叠的纹路后,对文字部分进行识别。字库+行业数据库模块14中存储有印刷体和手写体的各种字体,并且不断的根据新的手写体的出现进行分类收集存储,ICR核心引擎模块进行文字识别的过程中不断对字库+行业数据库模块中的字体进行调用。如图2所示,医疗票据识别方法包括如下步骤:步骤S101、对票据表面的不同框栏进行划分区域;步骤S102,预处理,对票据图片进行去渍、去章、去纹路的处理;步骤S103,再次划分区域;步骤S104,进行文字识别并多次匹配字库,生成模板;具体而言,扫描后的jpg图片进入ICR核心引擎模块进行识别时,ICR核心引擎模块对发票进行进行四次比对,两次比对普通字典库,两次比对医学字典库。比对数据每次成功识别率我们设置为25%,50%,75%,90%通过率,四次比对后成功率可以达到90%以上。文字识别包括以下步骤:(1)文字检测基于区域的文字检测。采用基于最大稳定极值区域(MSER,MaximallyStableExtremalRegions)的文字检测。以及基于RPN(RegionProposalNetwork)的文字检测。通过机器学习的方式,从数据出发,极少人工设置的规则干预。(2)文字识别采用CTC(ConnectionistTemporalClassifcation)损失函数建模,和RNN(RecurrentNeuralNetwork)递归神经网络进行文字识别。整行文字直接识别,无需字符分割,避免了字符分割中的误差,无需手工调参,从数据出发,自动学习文字特征,无需手工设计,基于深度神经网络学习识别模型。文本分析基于神经网络的文本分析方法,从数据出发,自动学习,无需手工设规则。自动学习,人工干预量少主要利用深度神经网络,数据训练量所需巨大;1类型个样本(1-2万份)技术方案适配多种应用场景,只要数据充足,即可训练识别算法。由于识别率高为前提条件,使得后台OCR内核需要大量的学习和训练,前期需由人工干预,帮助内核更快的学习、完善图像转换文字神经网络。在反复多次学习后,预计学习过程在处理2万张左右/每个类型的发票后(预计时间空间是T+180天),能够成长为一台脱离人工干预的智能OCR核心,达到98%正确率的识别效果;学习过程介绍:ICR预处理核心层1.图像预处理:该阶段主要针对输入的图像进行局部自适应去噪、字符区域检测,以及对字符尺寸进行预估。2.字符分割:中文字符与英文等字符最大的不同点在于,许多中文字符是由多个文字块组成(如:“明”由“日”和“月”构成;“林”由“木”和“木”构成等),对于这类字符是很难有统一的方法进行完整的分割。事实上,在我们的ICR框架中,对于字符分割阶段的分割准确率要求是比较宽松的,其最本质的原因在于我们采用了“分割→匹配→分割”这样一种动态调整的识别策略,自动通过不同组合来寻找到最优的分割字符。3.特征描述:作为ICR最核心的步骤,在特征描述阶段,我们做了大量的实验,最终选定了“多尺度+多特征融合+降维”的本文档来自技高网...

【技术保护点】
1.一种医疗票据ICR识别系统,其特征在于,包括:票据图片服务采集模块,对票据页面的关键点进行抓取;ICR预处理模块,对票据页面上的干扰图形进行过滤;ICR核心引擎模块,进行印刷体和手写体各类文字的识别;字库+行业数据库模块,存储印刷体和手写体的文字数据,以及普通字典库和医学字典库,供ICR核心引擎模块调用。

【技术特征摘要】
1.一种医疗票据ICR识别系统,其特征在于,包括:票据图片服务采集模块,对票据页面的关键点进行抓取;ICR预处理模块,对票据页面上的干扰图形进行过滤;ICR核心引擎模块,进行印刷体和手写体各类文字的识别;字库+行业数据库模块,存储印刷体和手写体的文字数据,以及普通字典库和医学字典库,供ICR核心引擎模块调用。2.利用如权利要求1所述的医疗票据ICR识别系统进行的医疗票据识别方法,其特征在于,包括如下步骤:步骤一、对票据表面的不同框栏进行划分区域;步骤二,预处理,对票据图片进行去渍、去章、去纹路的处理;步骤三,进行文字识别并多次匹配字库,生成模板;步骤四,合成模板和文字。3.如权利要求2所述的医疗票据识别方法,其特征在于:在步骤二和步骤三...

【专利技术属性】
技术研发人员:张成栋
申请(专利权)人:南通艾思达智能科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1