【技术实现步骤摘要】
基于图文识别技术的病例自动识别方法、系统、设备及存储介质
[0001]本专利技术涉及智能医疗
,更具体地,涉及基于图文识别技术的病例自动识别方法、系统、设备及存储介质。
技术介绍
[0002]传统的自动识别算法都是依赖于光学OCR识别技术,而病例图像在形成过程中因图像质量及版面复杂,文字识别准确率低,病例版面分析不准确,造成自动识别无法达到实际应用要求。
[0003]病例中有很多医生及护理人员的手写字体时,由于手写内容千变万化,中文手写字符串切分的手段比较单一,缺乏基于统计学习的算法,尽管基于卷积神经网络的分类模型在单个字符分类上得到成功应用,但是只有极少数的工作证明其在串识别中的提升程度。
技术实现思路
[0004]为解决上述问题,本申请建立一种基于图文识别技术的病例自动识别方法、系统、设备及存储介质。
[0005]一种基于图文识别技术的病例自动识别方法,具体方法步骤包括:获取待识别病例图像;对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像 ...
【技术保护点】
【技术特征摘要】
1.一种基于图文识别技术的病例自动识别方法,其特征在于,具体方法步骤包括:获取待识别病例图像;对所述病例图像中的文本区域进行印刷体或手写体文字分类,将文档图片中的文本区域分为手写体文字图像和印刷体文字图像;对所述手写体文字图像采用神经网络模型对手写体文字图像进行过切分,获得多个基元片段,将所述基元片段进行组合,得到切分候选网格,采用字符分类器对所述切分候选网格进行字符分类,得到字符候选网格,采用路径搜索网络判断所述字符候选网格的最优路径,得到手写体文字图像的文本内容,所述路径搜索网络包括语言上下文模型和几何上下文模型;对所述印刷体文字图像采用一种由卷积层、循环层和转录层组成的网络模型进行文字识别,得到印刷体文字图像的文本内容。2.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述过切分为两步法过切分,首先,使用基于前景点可见性分析的粘连字符切分算法对文本行图像进行初始的切分,将两个连续切分段之间的位置视作一个候选切分点;接着,使用滑动窗在上一步骤中得到的候选切分片段上生成一系列相同大小的窗口,并且使用一个二值卷积神经网络模型对这些窗口进行分类,判断窗口的中心是否属于合法切分点。3.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述字符分类器为卷积神经网络。4.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述几何上下文模型为基于神经网络的几何上下文模型,所述基于神经网络的几何上下文模型利用卷积神经网络对切分候选网格进行特征提取和分类或回归;可选的,使用多项式回归算法处理切分候选网格得到手写体文本行的走向,然后动态调整切分候选网格的上下空白,得到调整后的切分候选网格,利用卷积神经网络对调整后的切分候选网格进行特征提取和分类。5.根据权利要求1中所述的基于图文识别技术的病例自动识别方法,其特征在于,所述语言上下文模型为前馈神经网络语言模型、递归神经网络语言模型或混合语言模型;可选的,所述神经网络语言模型使用短列表方法和输出层分解方法进行计算加速,所述短列表方法是在神经网络语言模型的输出层增加一个类别表示所有不属于短列表的词集合,所述输出层分解方法是将所有的词被划...
【专利技术属性】
技术研发人员:王莹,何昆仑,孙宇慧,杨华,谢地,
申请(专利权)人:中国人民解放军总医院第一医学中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。