System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及一种面向医疗图像的光学字符识别方法,属于光学字符识别领域。
技术介绍
1、近年来,随着数字化医疗信息的快速增长,从医疗图像中提取和识别文本的需求日益迫切。医学报告、病历、处方笺和医疗影像等都包含了大量的文本信息。然而,传统的医疗图像是以图像形式存储的,无法直接进行文本搜索和分析。因此,将医疗图像中的文本提取出来并转换为可编辑和可搜索的格式对于医疗信息的管理和利用至关重要。面向医疗图像的光学字符识别方法能够自动识别和转换医疗图像中的文本,如出院小结、门诊档案、体检结论、药品信息等。这项技术的发展将极大地提高医疗数据的可访问性和可搜索性,促进医疗信息管理和决策的效率。
2、传统的光学字符识别方法通常基于规则或模板。基于规则的光学字符识别方法通过事先定义的规则和模式来识别和提取医疗图像中的文本。这些规则可以包括字母和数字的形状、尺寸、颜色等特征。基于模板的光学字符识别方法使用预先构建的模板来匹配和识别医疗图像中的文本。这些模板可以是字符、单词或特定的文本模式。通过与模板的匹配,识别和提取文本信息。此外机器学习方法在医疗图像光学字符识别方法中也被广泛应用。这些方法使用特征提取和分类算法来识别医疗图像中的文本。常见的特征提取方法包括边缘检测、形状描述符和纹理特征等。分类算法可以包括支持向量机(svm)、k最近邻(knn)和随机森林(random forest)等。
3、但是基于规则的方法往往对复杂布局和不规则文本处理能力有限,且需要手动定义和调整规则,难以应对各种不同类型的医疗图像。对于复杂布局、不规
4、而深度学习技术的兴起为图像识别和光学字符识别领域带来了新的突破。卷积神经网络(cnn)和循环神经网络(rnn)等深度学习模型在文本检测和识别任务中取得了显著的成果。这些模型能够自动学习特征表示和上下文信息,从而提高光学字符识别的准确性和鲁棒性。
5、然而,深度学习技术仍面临一些挑战。首先,现有技术往往依赖大规模标注数据,这限制了其在现实场景的应用。其次,由于在面向医疗图像的场景下,对于识别准确性的要求较高,而医疗图像类型繁多,不同种类的医疗图像特征差距较大,例如场景类别的医疗图像的文本存在不同尺度和形变的问题,而这样的特征在文档类的医疗图像中是不存在的,若仅使用单独的模型对图像进识别,便难以准确地处理。此外,目前的光学字符识别结果通常是成行状独立输出的,而医疗图像的特殊结构往往会是多栏、分立的,使得识别文本的单行输出结果存在多种条不相干的语句,造成文本语义上的割裂和杂糅,丧失了原本的结构信息,这往往是研究人员所不期望看到的。
技术实现思路
1、技术问题:本专利技术提供一种对于给定的一张医疗文档的图像或扫描副本,能够自动化地识别图像中每个包含文本信息的区域,并提取出对应医疗信息文本,根据上下文语义,分块组合成拥有完整语义的段落,形成医疗信息的结构化输出的面向医疗图像的光学字符识别方法。
2、技术方案:本专利技术的面向医疗图像的光学字符识别方法,首先加载训练的神经网络模型,对于给定医学图像进行识别图像的朝向,并对图像的方向进行纠正。然后基于矫正后的图像进行分类任务,得到图像的两种细分类别,对于两种不同的类别分别使用不同的方法对图像进行文本检测,选择出包含医学文本的图像部分,形成检测框。再训练一种文本识别模型根据检测框识别并提取出文本内容。最后使用一种基于transformer的模型,进行上下文建模和特征提取。推断出文本的语义和层次结构,以及元素之间的关系。组合相关文本进行结构化的输出。
3、本专利技术的面向医疗图像的光学字符识别方法,包括如下步骤:
4、步骤1:首先对图像进行处理。给定医疗图像或文档的扫描副本作为输入,这些图像可以包括病人的出院小结、门诊档案、体检结论、药品图片等。对输入图片进行预处理,包括调整大小、裁剪或填充等操作,以确保图像的一致性和易处理性。利用卷积神经网络模型预测并调整图像的朝向,得到矫正后的图像。在进行以下步骤之前,对输入图像进行分类。
5、步骤2:其次,对分类后的图像进行文本检测。对于文档类的图像,使用二值化算法对将分类后的图像进行处理得到二值图,二值图经过连通区域分析得到文本检测框。对于场景类的图像,使用resnet架构的神经网络提取文字区域坐标,记录文本检测框信息。
6、步骤3:然后在步骤2中得到的文字区域的检测框信息的基础上,进行文本识别。其特征在于:将输入图像分割为小块。这些小块被转换为一维的图像嵌入,对于每个小块将其图像嵌入与其对应的位置嵌入拼接作为seq2seq模型的输入,该模型经过端到端的训练,以预测字符序列,获得识别文本。
7、步骤4:最后,基于步骤2中的位置信息和步骤3中获得的识别文本,融合文本、位置、视觉信息,进行关键信息抽取,实现结构化文本的输出。其特征在于:基于步骤3中获得的识别文本获取文本嵌入。基于步骤2中的检测框获取位置嵌入。提取输入图像的特征信息并形成视觉嵌入。将文本、位置、视觉的嵌入信息组合作为文本检测模型的输入。进行上下文建模和特征提取。推断出文本的语义和层次结构,以及元素之间的关系。组合相关文本,进行结构化文本的输出。
8、本专利技术方法的优选方案中,所述步骤1中,按照如下方式调整图片的方向:
9、1-1构建一个卷积神经网络,对于待训练图像,经过重新调整大小、裁剪或填充等方式调整至一个固定大小的图像,如1024*1024像素,作为模型的输入,模型预测并输出一个连续值,表示图像的旋转角度。使用标签为旋转角度的训练集进行模型训练,通过最小化预测的旋转角度与真实标签差值的交叉熵损失来优化模型参数。
10、模型训练完毕后,对于待识别的图像,需要进行同样的预处理,将其调整为相同大小的图像。然后,将该图像输入训练好的模型中,模型将预测出图像的旋转角度。根据预测出的角度,对图像进行相应的旋转矫正。
11、1-2根据1-1所述的通过训练卷积神经网络来学习图像特征:模型输入经过5个卷积层,使用relu激活函数进行非线性映射,每个卷积层之间使用最大池化和归一化提取特征。随后经过全连接层将提取的特征映射到类别上。
12、本专利技术方法的优选方案中,所述步骤1中对医疗图像的分类并检测文本区域处理流程如下:
13、利用卷积神经网络,将图像分为文档类的医疗图像和场景类的医疗图像。模型采用与步骤1中的卷积神经网络相同的架构,训练图像为标记为文档类和场景类的两类医疗图像。对这两种医疗图像采用不同的文本检测方法。
14、本专利技术方法的优选方案中,所述步骤2中对于文档类医疗本文档来自技高网...
【技术保护点】
1.一种面向医疗图像的光学字符识别方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的面向医疗图像的光学字符识别方法,其特征在于,所述步骤1中,按照如下方式调整图片的方向:
3.根据权利要求1所述的面向医疗图像的光学字符识别方法,其特征在于,所述步骤1中对文档类分类任务流程如下:模型采用与调整图像朝向的卷积神经网络相同的架构,训练图像为标记为文档类医疗图像和场景类医疗图像。
4.根据权利要求3所述的面向医疗图像的光学字符识别方法,其特征在于,针对文档类医疗图像的处理流程如下:
5.根据权利要求3所述的面向医疗图像的光学字符识别方法,其特征在于,针对场景类医疗图像的处理流程如下:
6.根据权利要求1所述的面向医疗图像的光学字符识别方法,其特征在于,所述步骤3中对步骤2中划分出的包含文本信息区域进行文本识别,具体流程如下:
7.根据权利要求1所述的面向医疗图像的光学字符识别方法,其特征在于,所述步骤4进行关键信息抽取,实现段落输出,具体流程如下:
【技术特征摘要】
1.一种面向医疗图像的光学字符识别方法,其特征在于,该方法包括如下步骤:
2.根据权利要求1所述的面向医疗图像的光学字符识别方法,其特征在于,所述步骤1中,按照如下方式调整图片的方向:
3.根据权利要求1所述的面向医疗图像的光学字符识别方法,其特征在于,所述步骤1中对文档类分类任务流程如下:模型采用与调整图像朝向的卷积神经网络相同的架构,训练图像为标记为文档类医疗图像和场景类医疗图像。
4.根据权利要求3所述的面向医疗图像的光学字...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。