一种医疗票据的处理方法以及处理系统技术方案

技术编号:34110153 阅读:18 留言:0更新日期:2022-07-12 01:12
本发明专利技术提供了一种医疗票据的处理方法以及处理系统,所述处理方法包括:将影像数据通过OCR文字识别输出票据上文本及文本框对应的位置信息,再经实体抽取对基于先验知识定义好的标签从每个文本框中抽取需要的实体要素;过采用结构化处理方法对所述实体要素进行结构化处理,以达到与票面的明细一致的结果。本发明专利技术的处理方法能够高效的针对医疗票据进行处理审核,且审核准确性较高,避免了现有技术中录单时需要采用人工的方式,也避免了错误率逐渐增加从而增加审核难度的问题发生。渐增加从而增加审核难度的问题发生。渐增加从而增加审核难度的问题发生。

【技术实现步骤摘要】
一种医疗票据的处理方法以及处理系统


[0001]本专利技术涉及医疗票据处理领域,具体而言,涉及一种医疗票据的处理方法以及处理系统。

技术介绍

[0002]目前保险行业中对于理赔录单的流程普遍依靠的是人工录入与人工校验核对的方法。这种传统模式需要耗费大量的人力物力,对于长时间需要大量处理录单需求来说,持续低下的人工效率与业务增量的现实形成了很大矛盾,并且不同人员对业务的理解存在差异,很难形成规范化的理赔录单定式。因此需要采取创新性的智能化手段来提升与解决保险行业内的已知痛点,构建高效且精准度高的智能化理赔录入系统已势在必行。
[0003]在结构化数据、人工智能时代的洪流下,如何采用创新型的技术来提升传统保险行业的工作效率、提升客户体验感、降低误报率、标准化理赔等需求已然成为目前的迫切任务。
[0004]有鉴于此,特提出本专利技术。

技术实现思路

[0005]有鉴于此,本专利技术公开了一种针对医疗票据的处理方法以及处理系统,本专利技术通过采用多模态深度学习加结构化后处理的方式构建一套智能理赔录单系统,从而能够高效的针对医疗票据进行处理审核,且审核准确性较高,避免了现有技术中录单时需要采用人工的方式,也避免了错误率逐渐增加从而增加审核难度的问题发生。
[0006]具体地,本专利技术是通过以下技术方案实现的:
[0007]第一方面,本专利技术公开了一种医疗票据的处理方法,包括如下步骤:
[0008]将影像数据通过OCR文字识别输出票据上文本及文本框对应的位置信息,再经实体抽取对基于先验知识定义好的标签从每个文本框中抽取需要的实体要素;
[0009]通过采用结构化处理方法对所述实体要素进行结构化处理,以达到与票面的明细一致的结果。
[0010]第二方面,本专利技术公开了一种医疗票据的处理系统,包括:
[0011]抽取模块:用于将影像数据通过OCR文字识别输出票据上文本及文本框对应的位置信息,再经实体抽取对基于先验知识定义好的标签从每个文本框中抽取需要的实体要素;
[0012]结构化处理模块:用于采用结构化处理方法对所述实体要素进行结构化处理,以达到与票面的明细一致的结果。
[0013]第三方面,本专利技术公开了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如第一方面所述医疗票据的处理方法的步骤。
[0014]第四方面,本专利技术公开了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述医疗
票据的处理方法的步骤。
[0015]总之,本专利技术提出的医疗票据的处理方法以及处理系统,通过采用多模态深度学习加结构化后处理的方式构建一套智能理赔录单系统,从而能够高效的针对医疗票据进行处理审核,且审核准确性较高,避免了现有技术中录单时需要采用人工的方式,也避免了错误率逐渐增加从而增加审核难度的问题发生。
附图说明
[0016]通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
[0017]图1为本专利技术实施例提供的医疗票据的处理方法的流程示意图;
[0018]图2为本专利技术实施例提供的Y阈值法的流程示意图;
[0019]图3为本专利技术实施例提供的公共部分比例判断法的流程示意图;
[0020]图4为本专利技术实施例提供的竖直组斜率拼接法的流程示意图;
[0021]图5为本专利技术实施例提供的一种计算机设备的流程示意图。
具体实施方式
[0022]这里将详细地对示例性实施例进行说明,其示例表示在附图中。下面的描述涉及附图时,除非另有表示,不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开相一致的所有实施方式。相反,它们仅是与如所附权利要求书中所详述的、本公开的一些方面相一致的装置和方法的例子。
[0023]在本公开使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本公开。在本公开和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0024]应当理解,尽管在本公开可能采用术语第一、第二、第三等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本公开范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。取决于语境,如在此所使用的词语“如果”可以被解释成为“在
……
时”或“当
……
时”或“响应于确定”。
[0025]本专利技术公开了一种医疗票据的处理方法,参照图1所示,包括如下步骤:
[0026]将影像数据通过OCR文字识别输出票据上文本及文本框对应的位置信息,再经实体抽取对基于先验知识定义好的标签从每个文本框中抽取需要的实体要素;
[0027]通过采用结构化处理方法对所述实体要素进行结构化处理,以达到与票面的明细一致的结果。
[0028]上述提到的影像数据分为保险公司内部数据(历史的所有客户相关数据,如发票、病例本、理赔申请单、医疗明细清单等)与外采数据(例如体检公司提供的第三方输出,合作医院提供的客户医疗数据等)。
[0029]数据结构为非结构化数据,全部为保险理赔用户拍照上传的影像。
[0030]结构化处理的过程是用来结构化医疗发票明细的关键过程。由文字识别和实体抽取层输入的结果文本、位置信息和标签三个要素组成,并不能形成结构化的业务需求的明细信息。因此,结构化处理的方法需要提供三种方法,将非结构化的结果还原到和票面明细一致。此处的三种方法为Y阈值法,公共部分比例判断法,竖直组斜率拼接法,可根据实际情况选择最为适合的方式进行处理。
[0031]其中,所述Y阈值法包括如下步骤,具体见图2所示:
[0032]从所述实体要素中分离出包含标签的部分,取出包含医疗明细费用项目的条目;
[0033]按照固定的位置信息的Y值设置阈值范围来获取同一行的其他所有条目;
[0034]将所有条目中按照X坐标进行排序,遍历所有非费用项的条目直到遇到下个费用项截止。
[0035]Y阈值法由文本识别+实体抽取层输出结果三要素的位置信息和标签出发,找到某一条明细信息的头部(也就是费用项的名字),再用固定的Y阈值来找到属于本条明细的剩余其他信息,组成一条完整的明细信息进行输出。
[0036]所述公共部分比例判断法包括如下步骤,具体见图3所示:
[0037]从所述实体要素中分离出包含标签的部分,取出包含医疗明细费用项目的条目,以此条目为A项,以其他某一条目为B项;
[0038本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种医疗票据的处理方法,其特征在于,包括如下步骤:将影像数据通过OCR文字识别输出票据上文本及文本框对应的位置信息,再经实体抽取对基于先验知识定义好的标签从每个文本框中抽取需要的实体要素;通过采用结构化处理方法对所述实体要素进行结构化处理,以达到与票面的明细一致的结果。2.根据权利要求1所述的处理方法,其特征在于,所述结构化的处理方法包括Y阈值法,公共部分比例判断法以及竖直组斜率拼接法中的其中一种或几种的结合。3.根据权利要求2所述的处理方法,其特征在于,所述Y阈值法包括如下步骤:从所述实体要素中分离出包含标签的部分,取出包含医疗明细费用项目的条目;按照固定的位置信息的Y值设置阈值范围来获取同一行的其他所有条目;将所有条目中按照X坐标进行排序,遍历所有非费用项的条目直到遇到下个费用项截止。4.根据权利要求2所述的处理方法,其特征在于,所述公共部分比例判断法包括如下步骤:从所述实体要素中分离出包含标签的部分,取出包含医疗明细费用项目的条目,以此条目为A项,以其他某一条目为B项;对A项与B项文本的左侧边的高度和具体坐标进行计算,然后计算公共部分长度的比例;当所述公共部分长度的比例大于50%,判定B项与A项为同一行,并将B项变为A项,然后继续搜寻新的B项;将同一行的所有条目按照X坐标的升序排序,然后按照费用项标签进行切分,切分开的每个区间的若干条目组成详细的医疗明细进行输出。5.根据权利要求2所述的处理方法,其特征在于,所述竖直组斜率拼接法包括如下步骤:从所述实体要素中分离出...

【专利技术属性】
技术研发人员:王欣屹
申请(专利权)人:金科览智科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1