一种用于医疗票据的OCR关键信息抽取方法及模型技术

技术编号：40947198 阅读：2 留言：0更新日期：2024-04-18 20:20

本发明专利技术涉及图像识别技术领域，具体涉及一种用于医疗票据的OCR关键信息抽取方法及模型。包括以下步骤：步骤S1、对医疗票据图片进行OCR，输出文本坐标及相应文本内容；步骤S2、基于大语言模型对步骤S1中的输出结果判断医疗票据的场景类别；步骤S3、基于大语言模型根据不同医疗票据类型设计对应的Prompt；步骤S4、大语言模型根据Prompt对QUESTION,ANSWER进行一对一匹配关联，最终以键值对的形式输出结果。本发明专利技术具有鲁棒性高、通用性强，无需针对繁杂的垂类任务定制规则模版，能够高效地从样式多变的医疗票据中将关键信息进行抽取并进行有效关联，从而帮助医生提高诊疗效率，减少人工查阅医疗票据的时间。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，具体涉及一种用于医疗票据的ocr关键信息抽取方法及模型。

技术介绍

1、医疗票据作为诊疗依据的信息载体，其承载了关于病患各种身体指征重要信息，医生需要从病患提供的多种医疗票据中找到其所需项目的检查结果，以便制定治疗方案。

2、医疗票据种类多样，且以非统一的结构化形式呈现，常见的医疗票据有病历、报告单、检查单等，其中病历、报告单往往以非结构化的形式呈现，检查单通常以表格化或结构化的形式呈现，仅经过ocr后得到的文本是一种非结构化的信息；医疗票据样式复杂多样，不同医院、不同项目的检验报告都不尽相同；文字内容复杂，检查项目众多、检查项目名称不统一、报告中文字表述形式不统一；干扰项复杂，光线变化、检验单发生形变或者倾斜等因素的存在；这些现实问题都会导致无法仅通过ocr实现对关键信息进行抽取以及对其对应关系进行匹配。

3、目前针对医疗票据ocr的解决方案主要有两种方法：第一种是采用规则的方法，其根据文本坐标间的相对关系作为预定义的规则，但当图片发生倾斜或形变时就会失效，第二种是采用模板匹配的方法进行关键信息的匹配，通过提前定义某种样式的模板，之后将ocr的结果与其进行对齐从而得到文本间的相对关系，但是需要针对每种不同样式的医疗票据进行模板的制定，导致通用性不佳且开发成本大。

4、中国专利cn111985306a，公开日2020年11月24日，本公开的实施例提供了一种应用于医疗领域文档的ocr和信息抽取方法、设备和计算机可读存储介质。所述方法包括获取图像信息；对所述图像信息进行分析

技术实现思路

1、为解决现有从样式多变的医疗票据中获取将关键信息进行抽取并进行有效关联的问题，本专利技术采用如下技术方案：一种用于医疗票据的ocr关键信息抽取方法及模型，包括以下步骤：

2、步骤s1、对医疗票据图片进行ocr，输出文本坐标及相应文本内容；

3、步骤s2、基于大语言模型对步骤s1中的输出结果判断医疗票据的场景类别；

4、步骤s3、基于大语言模型根据不同医疗票据类型设计对应的prompt；

5、步骤s4、大语言模型根据prompt对question，answer进行一对一匹配关联，最终以键值对的形式输出结果。本专利技术具有鲁棒性高、通用性强，无需针对繁杂的垂类任务定制规则模版，能够高效地从样式多变的医疗票据中将关键信息进行抽取并进行有效关联，从而帮助医生提高诊疗效率，减少人工查阅医疗票据的时间。

6、作为优选，所述步骤s1中对票据图片进行ocr的具体步骤为：

7、s1.1、采用深度学习算法对医疗票据图片中的文字进行文字区域检测；

8、s1.2、采用一个文字方向4分类模型对步骤s1.1检测到的文字进行方向分类，判断其文字方向；

9、s1.3、若文字方向非水平放置，则根据模型预测的文字方向对图片进行相应角度的旋转，最终保证票据图片呈水平放置，若文字方向为水平放置，则直接进行步骤s1.4；

10、s1.4、对经过旋转矫正之后的图片进行文字检测，检测出精确的文字框；

11、s1.5、对检测出的文字区域进行文字识别，得到识别结果；

12、s1.6、最终所识别出来的文字根据文本坐标进行顺序调整，顺序在原始图片中按照从左到右、从上到下排列。

13、作为优选，所述步骤s1.1中的文字区域检测采用的深度学习算法为轻量级神经网络mobilenetv3。

14、作为优选，所述步骤s1.4中的文字检测采用的深度学习db算法，所述db算法公式为：

15、

16、其中，p为获取的概率，t为阈值，k为增益因子，ij为文本坐标。

17、作为优选，所述步骤s1.5中的文字识别采用的深度crnn算法，所述深度crnn算法使用增加l2正则化的ctc损失函数，其公式为：

18、

19、其中，x为输入序列，t为输入序列长度，表示输出单元的激活概率，l'为类别集合，l为任务字典符号集，π为网络译码路径，π与输入x等长,w是模型的参数向量，||w||2是参数向量w的l2范数。

20、作为优选，所述大语言模型是基于医疗领域数据训练得到的llm模型。

21、作为优选，所述prompt为通用的prompt。

22、一种用于医疗票据的ocr关键信息抽取模型，包括第一模块、第二模块、第三模块和第四模块，

23、第一模块、对医疗票据图片进行ocr，输出文本坐标及相应文本内容；

24、第二模块、基于大语言模型对第一单元中的输出结果判断医疗票据的场景类别；

25、第三模块、基于大型语言模型根据不同医疗票据类型设计对应的prompt；

26、第四模块、大语言模型根据prompt对question，answer进行一对一匹配关联，最终以键值对的形式输出结果。

27、一种计算设备，包括：存储器，用于存储计算机可执行代码；处理器，用于执行所述计算机可执行代码，以实现根据权利要求1-7任一个所述的抽取方法。

28、一种计算机可读介质，存储计算机可执行代码，所述计算机可执行代码被处理器执行，以实现根据权利要求1-7任一个所述的抽取方法。

29、本专利技术的有益技术效果包括：

30、1.本方法能够对ocr输出的所有信息进行筛选，只保留有价值的关键信息，缩短了人工审核过滤的时间；

31、2.相较于ocr仅能够输出非结构化信息，本方法可以将这些无序的信息进行结构化，并形成关联信息，极大减少了人工成本；

32、3.相比较与之前制作字典以匹配医疗术语多变的情况，本方法通过llm，其可以理解相同术语的不同表述形式，解决了医疗术语不统一带来的问题；

33、4.相比较与之前的基于规则的方法和基于制作模板的方法，本方法提高了ocr技术在医疗票据垂直领域落地时的通用性，该方法无关乎医疗票据的样式，无论是纸质版本还是电子截屏的都可以进行关键信息提取及匹配，同时，该方法极大地减小了开发成本。

34、本专利技术的其他特点和优点将会在下面的具体实施方式、附图中详细的说明。

本文档来自技高网...

【技术保护点】

1.一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

2.根据权利要求1所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

3.根据权利要求2所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

4.根据权利要求2所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

5.根据权利要求5所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

6.根据权利要求1所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

7.根据权利要求1所述的一种用于医疗票据的OCR关键信息抽取方法，其特征在于，

8.一种用于医疗票据的OCR关键信息抽取模型，其特征在于，

9.一种计算机可读存储介质，所述计算机可读存储介质中存储有程序指令，所述程序指令运行时，用于执行根据权利要求1-7任一个所述的抽取方法。

10.一种计算设备，包括上述的计算机可读存储介质，以实现根据权利要求1-7任一个所述的抽取方法。

【技术特征摘要】

1.一种用于医疗票据的ocr关键信息抽取方法，其特征在于，

2.根据权利要求1所述的一种用于医疗票据的ocr关键信息抽取方法，其特征在于，

3.根据权利要求2所述的一种用于医疗票据的ocr关键信息抽取方法，其特征在于，

4.根据权利要求2所述的一种用于医疗票据的ocr关键信息抽取方法，其特征在于，

5.根据权利要求5所述的一种用于医疗票据的ocr关键信息抽取方法，其特征在于，

6.根据权利要求1所述的一种用于...

【专利技术属性】
技术研发人员：张伟，张靖，崔涛，贺扬，
申请(专利权)人：杭州咏柳科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人