【技术实现步骤摘要】
一种基于神经网络的智能病案文字识别的方法
本专利技术涉及医疗病案管理领域,特别是一种基于神经网络的智能病案文字识别的方法。
技术介绍
按规范记录病人疾病表现和诊断情况的档案,由医疗机构的病案管理部门按照相关规定保存。不仅有纸质的,还有电子文档、医学影像、检查胶片、病理切片等保存形式。对于纸质保存的数据,我们需要通过技术手段将里面的数据提取出来通过电子文档的形式保存,用于统计分析和科研任务。对于纸质病案数据的提取,需要用到OCR技术,先对病案进行文字检测,再对检测到的文本行进行文字识别。目前,文字识别技术在病案识别上的缺陷有:1、通用文字识别仅仅只包含常用字的识别,病案中存在很多专业医学词汇。2、通用文字识别方法容易受到病案文本行数据背景的干扰,表现不佳。3、除了数据集包含文字较少外,通用文字识别方法准确率普遍没有达到95%。。
技术实现思路
本专利技术的目的在于克服现有技术的不足,提供一种基于神经网络的智能病案文字识别的方法,以解决上述技术背景中所提出的问题。本专利技术的目的是通过 ...
【技术保护点】
1.一种基于神经网络的智能病案文字识别的方法,其特征在于,包括以下步骤:/nS1、取病案文本行数据进行标注,标出每个文本行里面所包含的文字,得到病案训练数据;/nS2、将标注病案训练数据与已有的通过通用文字识别方法识别的文字检测数据一起作为训练数据,并将已有的文字检测数据按照98:1:1的比例分成训练集、测试集和验证集;/nS3、将训练数据按32x280x3的图片进行灰度处理转换成32x280x1的灰度图,并输入卷积神经网络模块中进行图片的特征提取,生成4x35x192的特征图,然后将特征图进行维度交换35x4x192,再将最后两个维度进行合并35x768的特征图转入双层双 ...
【技术特征摘要】
1.一种基于神经网络的智能病案文字识别的方法,其特征在于,包括以下步骤:
S1、取病案文本行数据进行标注,标出每个文本行里面所包含的文字,得到病案训练数据;
S2、将标注病案训练数据与已有的通过通用文字识别方法识别的文字检测数据一起作为训练数据,并将已有的文字检测数据按照98:1:1的比例分成训练集、测试集和验证集;
S3、将训练数据按32x280x3的图片进行灰度处理转换成32x280x1的灰度图,并输入卷积神经网络模块中进行图片的特征提取,生成4x35x192的特征图,然后将特征图进行维度交换35x4x192,再将最后两个维度进行合并35x768的特征图转入双层双向循环神经网络做特征提取,得到特征图的35个切片;
S4、利用文本识别模型对特征图的35个切...
【专利技术属性】
技术研发人员:徐登友,董艺航,许慧,
申请(专利权)人:颐保医疗科技上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。