基于神经网络文本检测识别的医疗票据类文字提取方法技术

技术编号：19778984 阅读：23 留言：0更新日期：2018-12-15 11:33

本发明专利技术公开了一种基于神经网络文本检测识别的医疗票据类文字提取方法，包括：获取原始票据，对票据进行文本检测和文本识别，对文本中出现的重叠的文本框进行文本融合，对只有单字错识或漏识的条目进行纠正，对票据进行标题检测和识别，根据标题在票据模板库中查询该标题所对应的票据模板，根据模板查找关键词，在关键词附近搜索对应数据，根据逻辑关系纠正部分条目。本发明专利技术结合了基于神经网络的OCR方法识别的文本，对文本进行了数据提取，以修正部分OCR导致的错识或者漏识；同时针对不同样式不同模板的票据，提供通用或者独特的票据模板解析方法，该方法在文本检测和文本识别中能获取较高的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于神经网络文本检测识别的医疗票据类文字提取方法
本专利技术涉及文字提取
，尤其涉及一种基于神经网络文本检测识别的医疗票据类文字提取方法。
技术介绍
保险公司处理医疗类保险案件时，需要用户提供相关的报销票据，这些票据有的是拍摄的图片，有的是票据复印件。对于这图片或者复印件，这部分工作需要大量的人力；随着信息化的发展，保险公司开始使用目前比较成熟的基于神经网络的OCR识别，但是由于票据本身的复杂环境：票据文本间有很多的遮挡、印刷的文字与后打印上去的文字有水平和竖直上的偏移等，即使是目前效果较好的文字识别，在医疗票据上的表现也有很多不足的地方。卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络，它的人工神经元可以响应一部分覆盖范围内的周围单元，对于大型图像处理有出色表现；其包括卷积层(convolutionallayer)和池化层(poolinglayer)。文字识别方法：只有将文档图片识别成文字后，才能进行信息提取；因而，文字识别在其中也至关重要。文字识别的方法也分传统方法和深度学习方法。深度学习的方法是，深度卷积神经网络进行文字检测，深度循环网络进行文字串识别。识别结果准确高，处理简单，泛化能力强。深度学习文字方法包含以下模型：文字检测的模型：FasterRCNN，EAST，RRCNN，TextBoxes文字识别的模型：RCNN现有文字提取方法存在的缺点为：1、采用人工录入的办法，则成本极高，录入耗时过长；2、若是直接使用神经网络识别出来的文本信息，需要根据不同的票据专门写对应的票据信息提取，样式过多，难以...

【技术保护点】
1.一种基于神经网络文本检测识别的医疗票据类文字提取方法，其特征在于，包括：步骤1、获取原始票据；步骤2、对票据进行文本检测和文本识别；步骤3、对文本中出现的重叠的文本框进行文本融合；步骤4、对只有单字错识或漏识的条目进行纠正；步骤5、对票据进行标题检测和识别；步骤6、根据标题在票据模板库中查询该标题所对应的票据模板；步骤7、根据模板查找关键词；步骤8、在关键词附近搜索对应数据；步骤9、根据逻辑关系纠正部分条目。

【技术特征摘要】
1.一种基于神经网络文本检测识别的医疗票据类文字提取方法，其特征在于，包括：步骤1、获取原始票据；步骤2、对票据进行文本检测和文本识别；步骤3、对文本中出现的重叠的文本框进行文本融合；步骤4、对只有单字错识或漏识的条目进行纠正；步骤5、对票据进行标题检测和识别；步骤6、根据标题在票据模板库中查询该标题所对应的票据模板；步骤7、根据模板查找关键词；步骤8、在关键词附近搜索对应数据；步骤9、根据逻辑关系纠正部分条目。2.如权利要求1所述的基于神经网络文本检测识别的医疗票据类文字提取方法，其特征在于，所述步骤3包括：检查重叠的两个文本框中靠左文本框的后...

【专利技术属性】
技术研发人员：夏路遥，
申请(专利权)人：深源恒际科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人