基于OCR的医学材料结构化处理方法、装置、设备及介质制造方法及图纸

技术编号:39312391 阅读:6 留言:0更新日期:2023-11-12 15:57
本发明专利技术涉及医疗领域。提供了一种基于OCR的医学材料结构化处理方法、装置、设备及介质,方法包括:获取待识别医学材料图片;利用OCR技术对所述待识别医学材料图片进行文本识别,获得多个目标文本;对多个所述目标文本进行排序,获得目标文本集;基于预先训练的医学材料模型,确定所述目标文本集对应的医学材料类型;基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;对所述目标文本集进行结构化处理。本发明专利技术能够极大的消除全国各医院医学材料之间的差异性,对全国各所医院的医学材料支持度高,覆盖全面,提取医学结构化信息的效率高,能够合理利用拍摄的医学材料。合理利用拍摄的医学材料。合理利用拍摄的医学材料。

【技术实现步骤摘要】
基于OCR的医学材料结构化处理方法、装置、设备及介质


[0001]本专利技术涉及医疗领域,特别涉及一种基于OCR的医学材料结构化处理方法、装置、设备及介质。

技术介绍

[0002]在医疗领域,存在大量由患者通过移动设备(手机等)自行拍摄的医学材料。为了更好的进行医学信息分析,需要对患者拍摄的医学材料进行信息一级结构化处理,即从医学图片材料中提取出“诊断”、“出院医嘱”、“诊疗经过”等的第一级的结构化信息,为下一步进行详细信息提取提供数据基础。
[0003]但是,由于全国医院之间医学材料差异性较大,现有技术对全国各所医院的医学材料支持度差,覆盖率低,提取医学一级结构化信息的效率低,不能合理利用拍摄的医学材料。

技术实现思路

[0004]鉴于此,本专利技术提供一种基于OCR的医学材料结构化处理方法、装置、设备及介质,以解决现有技术对全国各所医院的医学材料支持度差,覆盖率低,提取医学一级结构化信息的效率低,不能合理利用拍摄的医学材料的技术问题。
[0005]具体而言,包括以下的技术方案:
[0006]第一方面,提供了一种基于OCR的医学材料结构化处理方法,包括:
[0007]获取待识别医学材料图片;
[0008]利用OCR技术对所述待识别医学材料图片进行文本识别,获得多个识别文本,并对多个所述识别文本进行预处理,获得多个目标文本;
[0009]对多个所述目标文本进行排序,提取多个所述目标文本中的文本内容并进行拼接,获得目标文本集;
[0010]基于预先训练的医学材料模型,确定所述目标文本集对应的医学材料类型;
[0011]基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;
[0012]根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本集进行结构化处理。
[0013]第二方面,提供了一种基于OCR的医学材料结构化处理装置,包括:
[0014]获取模块,用于获取待识别医学材料图片;
[0015]识别模块,用于利用OCR技术对所述待识别医学材料图片进行文本识别,获得多个识别文本,并对多个所述识别文本进行预处理,获得多个目标文本;
[0016]排序模块,用于对多个所述目标文本进行排序,提取多个所述目标文本中的文本内容并进行拼接,获得目标文本集;
[0017]分类模块,用于基于预先训练的医学材料模型,确定所述目标文本集对应的医学
材料类型;
[0018]查询模块,用于基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;
[0019]处理模块,用于根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本集进行结构化处理。
[0020]第三方面,提供了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如上所述基于OCR的医学材料结构化处理方法的步骤。
[0021]第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上所述基于OCR的医学材料结构化处理方法的步骤。
[0022]本专利技术提供的技术方案的有益效果至少包括:
[0023]本专利技术通过获取待识别医学材料图片获得目标文本集,将目标文本集输入预先训练的医学材料模型,确定目标文本集对应的医学材料类型,通过预先构建的结构化词典,确定目标文本集结构化处理时对应的多个结构化字段名称和关键词,能够极大的消除全国各医院医学材料之间的差异性,对全国各所医院的医学材料支持度高,覆盖全面,提取医学一级结构化信息的效率高,能够合理利用拍摄的医学材料。
附图说明
[0024]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0025]图1是本专利技术一实施例中基于OCR的医学材料结构化处理方法的一应用环境示意图;
[0026]图2是本专利技术一实施例中基于OCR的医学材料结构化处理方法的一流程示意图;
[0027]图3是图1中步骤S60的一具体实施方式流程示意图;
[0028]图4是图1中步骤S20的一具体实施方式流程示意图;
[0029]图5是图4中步骤S20的一具体实施方式中对识别文本进行预处理示意图;
[0030]图6是本专利技术一实施例中基于OCR的医学材料结构化处理装置的一结构示意图;
[0031]图7是本专利技术一实施例中计算机设备的一结构示意图;
[0032]图8是本专利技术一实施例中计算机设备的另一结构示意图。
[0033]通过上述附图,已示出本专利技术一个明确的实施例,后文中将有更详细的描述。这些附图和文字描述并不是为了通过任何方式限制本专利技术构思的范围,而是通过参考特定实施例为本领域技术人员说明本专利技术的概念。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本发
明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0035]具体的,本专利技术针对的医学材料包括患者自行拍摄的医学材料图片,存在质量差、材料类型繁多等特点,难以直接利用此类医学材料图片进行医学分析,无法对患者的身体状况做好分析和跟踪。并且在患者的医学信息分析提取过程中,一些详细信息如用药信息、检查结果等,难以直接从医学材料中提取,存在抽取困难、覆盖度不高等难点。
[0036]本专利技术提供的基于OCR的医学材料结构化处理方法,可应用在如图1所示的应用环境中。其中,客户端通过网络与服务端进行通信。服务端可以通过客户端获取待识别医学材料图片;利用OCR技术对所述待识别医学材料图片进行文本识别,获得多个识别文本,并对多个所述识别文本进行预处理,获得多个目标文本;对多个所述目标文本进行排序,提取多个所述目标文本中的文本内容并进行拼接,获得目标文本集;基于预先训练的医学材料模型,确定所述目标文本集对应的医学材料类型;基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本集进行结构化处理。本专利技术中通过获取待识别医学材料图片获得目标文本集,将目标文本集输入预先训练的医学材料模型,确定目标文本集对应的医学材料类型,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的医学材料结构化处理方法,其特征在于,包括:获取待识别医学材料图片;利用OCR技术对所述待识别医学材料图片进行文本识别,获得多个识别文本,并对多个所述识别文本进行预处理,获得多个目标文本;对多个所述目标文本进行排序,提取多个所述目标文本中的文本内容并进行拼接,获得目标文本集;基于预先训练的医学材料模型,确定所述目标文本集对应的医学材料类型;基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词;根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本集进行结构化处理。2.根据权利要求1所述的基于OCR的医学材料结构化处理方法,其特征在于,所述根据多个所述结构化字段名称,及每个所述结构化字段名称对应的多个所述关键词,对所述目标文本进行结构化处理,包括:在所述目标文本集中搜索多个所述关键词;获得多个所述关键词的位置信息;确定相邻两个所述关键词的位置信息;根据相邻两个所述关键词的位置信息,确定相邻两个所述关键词中位置靠前的所述关键词的结构化文本;确定与所述结构化文本对应的所述关键词对应的所述结构化字段名称。3.根据权利要求2所述的基于OCR的医学材料结构化处理方法,其特征在于,所述获得多个所述关键词的位置信息,包括获得每个所述关键词的起始位置信息和终止位置信息;所述确定相邻两个所述关键词的位置信息,包括确定第i个所述关键词的起始位置信息、第i个所述关键词的终止位置信息、第i+1个所述关键词的起始位置信息及第i+1个所述关键词的终止位置信息;所述根据相邻两个所述关键词的位置信息,确定相邻两个所述关键词中位置靠前的所述关键词的结构化文本,包括:获取第i个所述关键词的起始位置信息和第i+1个所述关键词的起始位置信息之间的文本内容,确定所述文本内容为所述i个关键词的结构化文本。4.根据权利要求1所述的基于OCR的医学材料结构化处理方法,其特征在于,在所述基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称,及每个结构化字段名称对应的多个关键词之前,所述方法包括:获取多种类型的医学材料;预设每种类型的所述医学材料对应的多个结构化字段名称,及每个所述结构化字段名称对应的多个关键词;根据每种类型的所述医学材料对应的多个结构化字段名称,及每个所述结构化字段名称对应的多个关键词,构建结构化词典。5.根据权利要求1所述的基于OCR的医学材料结构化处理方法,其特征在于,所述基于预先构建的结构化词典,确定所述目标文本集对应的医学材料类型对应的多
个...

【专利技术属性】
技术研发人员:蒋佳佳毛小伟黄平黄明星周晓波沈鹏
申请(专利权)人:北京水滴科技集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1