基于OCR的医学材料结构化处理方法、装置、设备及介质制造方法及图纸

技术编号：39312391 阅读：6 留言：0更新日期：2023-11-12 15:57

本发明专利技术涉及医疗领域。提供了一种基于OCR的医学材料结构化处理方法、装置、设备及介质，方法包括：获取待识别医学材料图片；利用OCR技术对所述待识别医学材料图片进行文本识别，获得多个目标文本；对多个所述目标文本进行排序，获得目标文本集；基于预先训练的医学材料模型，确定所述目标文本集对应的医学材料类型；基于预先构建的结构化词典，确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称，及每个结构化字段名称对应的多个关键词；对所述目标文本集进行结构化处理。本发明专利技术能够极大的消除全国各医院医学材料之间的差异性，对全国各所医院的医学材料支持度高，覆盖全面，提取医学结构化信息的效率高，能够合理利用拍摄的医学材料。合理利用拍摄的医学材料。合理利用拍摄的医学材料。

全部详细技术资料下载

【技术实现步骤摘要】
基于OCR的医学材料结构化处理方法、装置、设备及介质

[0001]本专利技术涉及医疗领域，特别涉及一种基于OCR的医学材料结构化处理方法、装置、设备及介质。

技术介绍

[0002]在医疗领域，存在大量由患者通过移动设备(手机等)自行拍摄的医学材料。为了更好的进行医学信息分析，需要对患者拍摄的医学材料进行信息一级结构化处理，即从医学图片材料中提取出“诊断”、“出院医嘱”、“诊疗经过”等的第一级的结构化信息，为下一步进行详细信息提取提供数据基础。
[0003]但是，由于全国医院之间医学材料差异性较大，现有技术对全国各所医院的医学材料支持度差，覆盖率低，提取医学一级结构化信息的效率低，不能合理利用拍摄的医学材料。

技术实现思路

[0004]鉴于此，本专利技术提供一种基于OCR的医学材料结构化处理方法、装置、设备及介质，以解决现有技术对全国各所医院的医学材料支持度差，覆盖率低，提取医学一级结构化信息的效率低，不能合理利用拍摄的医学材料的技术问题。
[0005]具体而言，包括以下的技术方案：
[0006]第一方面，提供了一种基于OCR的医学材料结构化处理方法，包括：
[0007]获取待识别医学材料图片；
[0008]利用OCR技术对所述待识别医学材料图片进行文本识别，获得多个识别文本，并对多个所述识别文本进行预处理，获得多个目标文本；
[0009]对多个所述目标文本进行排序，提取多个所述目标文本中的文本内容并进行拼接，获得目标文本集；
[0010]基于预先...

【技术保护点】

【技术特征摘要】
1.一种基于OCR的医学材料结构化处理方法，其特征在于，包括：获取待识别医学材料图片；利用OCR技术对所述待识别医学材料图片进行文本识别，获得多个识别文本，并对多个所述识别文本进行预处理，获得多个目标文本；对多个所述目标文本进行排序，提取多个所述目标文本中的文本内容并进行拼接，获得目标文本集；基于预先训练的医学材料模型，确定所述目标文本集对应的医学材料类型；基于预先构建的结构化词典，确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称，及每个结构化字段名称对应的多个关键词；根据多个所述结构化字段名称，及每个所述结构化字段名称对应的多个所述关键词，对所述目标文本集进行结构化处理。2.根据权利要求1所述的基于OCR的医学材料结构化处理方法，其特征在于，所述根据多个所述结构化字段名称，及每个所述结构化字段名称对应的多个所述关键词，对所述目标文本进行结构化处理，包括：在所述目标文本集中搜索多个所述关键词；获得多个所述关键词的位置信息；确定相邻两个所述关键词的位置信息；根据相邻两个所述关键词的位置信息，确定相邻两个所述关键词中位置靠前的所述关键词的结构化文本；确定与所述结构化文本对应的所述关键词对应的所述结构化字段名称。3.根据权利要求2所述的基于OCR的医学材料结构化处理方法，其特征在于，所述获得多个所述关键词的位置信息，包括获得每个所述关键词的起始位置信息和终止位置信息；所述确定相邻两个所述关键词的位置信息，包括确定第i个所述关键词的起始位置信息、第i个所述关键词的终止位置信息、第i+1个所述关键词的起始位置信息及第i+1个所述关键词的终止位置信息；所述根据相邻两个所述关键词的位置信息，确定相邻两个所述关键词中位置靠前的所述关键词的结构化文本，包括：获取第i个所述关键词的起始位置信息和第i+1个所述关键词的起始位置信息之间的文本内容，确定所述文本内容为所述i个关键词的结构化文本。4.根据权利要求1所述的基于OCR的医学材料结构化处理方法，其特征在于，在所述基于预先构建的结构化词典，确定所述目标文本集对应的医学材料类型对应的多个结构化字段名称，及每个结构化字段名称对应的多个关键词之前，所述方法包括：获取多种类型的医学材料；预设每种类型的所述医学材料对应的多个结构化字段名称，及每个所述结构化字段名称对应的多个关键词；根据每种类型的所述医学材料对应的多个结构化字段名称，及每个所述结构化字段名称对应的多个关键词，构建结构化词典。5.根据权利要求1所述的基于OCR的医学材料结构化处理方法，其特征在于，所述基于预先构建的结构化词典，确定所述目标文本集对应的医学材料类型对应的多
个...

【专利技术属性】
技术研发人员：蒋佳佳，毛小伟，黄平，黄明星，周晓波，沈鹏，
申请(专利权)人：北京水滴科技集团有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人