一种医疗病理报告图片的文本结构化处理系统和方法技术方案

技术编号:26973764 阅读:37 留言:0更新日期:2021-01-06 00:07
本申请提供了一种医疗病理报告图片的文本结构化处理系统和方法,其中,该系统包括:文本识别模块,用于对医疗病理报告图片进行文本识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将病理文本切割为结构化文本和非结构化文本;字典匹配模块和模型预测模块,用于确定第一和第二医疗指标名实体数据结构;策略融合模块,用于对其进行融合得到医疗指标名实体;数据封装模块,用于封装医疗指标名实体和结构化文本;策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。本申请可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。

【技术实现步骤摘要】
一种医疗病理报告图片的文本结构化处理系统和方法
本申请涉及图文识别
,尤其是涉及一种医疗病理报告图片的文本结构化处理系统和方法。
技术介绍
目前,针对医疗病理报告的大数据分析技术对医疗领域的技术研究起着非常重要的作用,而病理数据的精准结构化是有价值的医疗大数据分析的基础。然而,我国的医疗信息系统(比如HIS系统)在全国、同城等的医院之间并没有实现病理数据的互联互通,甚至部分医院内部的病理数据也无法跨科室复用,医疗信息孤岛的现象普遍存在。多数病理报告以半结构化的文本图片数据形式呈现,其中,结构化信息多数为病患的基本信息,诸如性别,年龄,病理号,住院号等;非结构化信息多数为病理诊断或者诊断信息等描述性文字。对于后者,非结构化数据由于不同医院、不同医生的描述习惯不统一,写作模板不一致,呈现出不规范,零散的情况。当前,许多医院存在将不同类型的病理报告图片需要进行跨科室、跨医院的数据解析并录入的需求。因此,亟需研发一种医疗病理报告图片的文本结构化处理方案。
技术实现思路
有鉴于此,本申请的目的在于提供一种医疗病理报告图片的文本结构化处理系统和方法,可提高图文识别的准确率,在医疗病理信息系统中更加方便快捷的实现了数据抽取、结构化、存储等多个业务需求。第一方面,本申请实施例提供了一种医疗病理报告图片的文本结构化处理系统,包括:文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。在一种可能的实施方式中,所述文本识别模块包括:读取单元,用于读取医疗病理报告图片;预处理单元,用于对所述医疗病理报告图片按照预设大小进行归一化处理;检测单元,用于利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,并利用循环神经网络模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框;调整单元,用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是则将每个文本碎片框与临近文本碎片框进行合并,进而从医疗病理报告图片中获取多个文本检测区域;识别单元,用于利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别;纠错单元,用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。在一种可能的实施方式中,所述检测单元还用于:将待检测的目标区域的四个角标注出各自的二维坐标,将所述二维坐标合并为一个标记框向量,将每个标记框拆分为预设宽度的矩形框,基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络模型。在一种可能的实施方式中,所述纠错单元具体用于:将识别出的字词匹配人工字典进行常识性纠错处理,通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度,确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词,比较识别出的专业词汇和至少一个同义词的余弦相似度,从至少一个同义词中确定目标匹配词,并将识别出的专业词汇替换为所述目标匹配词。在一种可能的实施方式中,所述模型预测模块还用于:针对特定癌种的病理诊断数据集,根据BIOES标签体系和病理业务知识进行人工标注,将标注数据集按照8:1:1的比例分解为训练集、验证集和测试集,通过搭建词嵌入层、神经网络BiLSTM层和CRF层来构建命名实体识别模型,在训练集和验证集上对所述命名实体识别模型进行训练,最后利用测试集对训练的所述命名实体识别模型进行测试。在一种可能的实施方式中,所述策略融合模块具体用于:比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最长的医疗指标名实体数据结构;或者比较所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构这两组对应元组的索引位置相交的部分,保留医疗指标名最短的医疗指标名实体数据结构。在一种可能的实施方式中,所述策略归一化模块具体用于:计算封装结果中的病理词汇与同义词词汇表中的词汇的文本相似度,选取相似度最大的同义词来替换该病理词汇,以对封装结果进行策略归一化处理,并根据业务逻辑进行三层推理,得到医疗病理报告图片的结构化文本。第二方面,本申请实施例提供了一种医疗病理报告图片的文本结构化处理方法,包括:将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;对所述医疗指标名实体和所述结构化文本进行数据封装;对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行上述第二方面中的步骤。第四方面,本申请实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行上述第二方面中的步骤。本申请实施例提供的一种医疗病理报告图片的文本结构化处理系统,包括:文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与本文档来自技高网...

【技术保护点】
1.一种医疗病理报告图片的文本结构化处理系统,其特征在于,包括:/n文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;/n文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;/n字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;/n模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;/n策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;/n数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;/n策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。/n

【技术特征摘要】
1.一种医疗病理报告图片的文本结构化处理系统,其特征在于,包括:
文本识别模块,用于将医疗病理报告图片划分为多个文本检测区域,对每个文本检测区域进行文字识别,并对识别出的字词进行纠错处理,得到病理文本;
文本切割模块,用于将所述病理文本切割为结构化文本和非结构化文本,并对所述非结构化文本进行预处理;
字典匹配模块,用于将所述非结构化文本中每条预处理后的病理诊断数据与相应癌种的词库进行一一匹配,得到第一医疗指标名实体数据结构;
模型预测模块,用于利用命名实体识别模型对所述非结构化文本进行预测,得到第二医疗指标名实体数据结构;
策略融合模块,用于根据预设策略将所述第一医疗指标名实体数据结构和第二医疗指标名实体数据结构进行融合,得到医疗指标名实体;
数据封装模块,用于对所述医疗指标名实体和所述结构化文本进行数据封装;
策略归一化模块,用于对封装结果进行策略归一化处理和推理,得到医疗病理报告图片的结构化文本。


2.根据权利要求1所述的系统,其特征在于,所述文本识别模块包括:
读取单元,用于读取医疗病理报告图片;
预处理单元,用于对所述医疗病理报告图片按照预设大小进行归一化处理;
检测单元,用于利用连接文本提议网络模型对归一化处理后的医疗病理报告图片进行小尺度文本检测,预测每个小尺度文本在竖直方向上的位置,并利用循环神经网络模型将检测出的小尺度文本进行连接,得到多个宽度为预设宽度的文本碎片框;
调整单元,用于依据各个文本碎片框的属性得分和图像尺寸判断每个文本碎片框与临近文本碎片框是否属于同一目标文本检测框,若是则将每个文本碎片框与临近文本碎片框进行合并,进而从医疗病理报告图片中获取多个文本检测区域;
识别单元,用于利用密集连接卷积网络与联结主义时间分类器的融合模型对每个文本检测区域进行文字识别;
纠错单元,用于对识别出的字词进行常识性纠错处理和业务逻辑纠错处理,得到病理文本。


3.根据权利要求2所述的系统,其特征在于,所述检测单元还用于:将待检测的目标区域的四个角标注出各自的二维坐标,将所述二维坐标合并为一个标记框向量,将每个标记框拆分为预设宽度的矩形框,基于所述标记框向量和预设宽度的矩形框生成宽度为预设宽度的矩形框坐标集,以所述矩形框坐标集作为模型训练目标值进行模型训练,得到所述连接文本提议网络模型。


4.根据权利要求2所述的系统,其特征在于,所述纠错单元具体用于:将识别出的字词匹配人工字典进行常识性纠错处理,通过计算识别出的专业词汇与知识库中病理专业词汇的最小编辑距离来计算文本相似度,确定知识库中病理专业词汇中与识别出的专业词汇的最小编辑距离相等的至少一个同义词,比较识别出的专业词汇和...

【专利技术属性】
技术研发人员:骆佳俊魏博马素芬许永超李力行凌少平
申请(专利权)人:志诺维思北京基因科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1