一种信息处理的方法技术

技术编号:18289550 阅读:25 留言:0更新日期:2018-06-24 04:17
本发明专利技术涉及医学电子报告信息提取技术领域,尤其涉及一种信息处理的方法,包括以下步骤:获取医学电子报告中的中间格式数据;对中间格式数据的坐标进行排序;发现医学电子报告中的分割线;获取医学电子报告中的表头,并将表头保存为关键字;定义表头;定义表的行和列;将提取出来的表格信息转换成预设格式的文档并输出。本发明专利技术的一种信息处理的方法,以关键字为主,线条为辅的方法对医学电子报告中的信息进行提取与整理,实现低成本、高效率的自动化提取,支持多种样式的医学电子报告识别,涵盖了多种指标项的识别和解读,对电子报告中的不规则表格有较高的识别率。

【技术实现步骤摘要】
一种信息处理的方法
本专利技术涉及医学电子报告信息提取
,尤其涉及一种信息处理的方法。
技术介绍
医学电子报告多以PDF,XPS格式文件为主,包含丰富的患者个人和病历数据,XPS文档与PDF文档类似,是一种只读文档格式,其采用结构化数据形式保存数据,在使用计算机读取文档内容时,需要进行相应的解析和提取处理。.net中有读取处理的组件,该组件虽能够获取XPS或PDF中的文本信息,但不公开提供坐标信息的获取能力,有个隐藏接口虽可获取坐标信息但准确度很低。医学电子报告中的检验指标通常以表格的形式呈现,传统提取表格的做法是采用视觉模式来划分表元素。医学电子报告中用来呈现检验指标的表格通常没有明确的分隔线、矩形或者间隔,单纯用视觉模式划分表格元素的方案准确性较低,不完全适用于检验指标提取。
技术实现思路
针对现有技术中存在的问题,本专利技术提供一种信息处理的方法。一种信息处理的方法,包括以下步骤:获取医学电子报告中的中间格式数据;对中间格式数据的坐标进行排序;发现医学电子报告中的分割线;获取医学电子报告中的表头,并将表头保存为关键字,根据预设的数据字典和关键字对表头坐标进行定位;定义表头;定义表的行和列;将提取出来的表格信息转换成预设格式的文档并输出。进一步的,对中间格式数据的坐标进行排序的步骤具体为:依照先页后行再列的顺序对中间格式数据以及中间格式数据的坐标进行重新排序。进一步的,先页后行再列的顺序具体包括:所有中间格式数据,按页划分,按页码升序排列;单个页面,按元素的Y坐标升序排序,Y坐标的垂直间距使元素划分为多行,行内元素按X坐标升序排序。进一步的,发现医学电子报告中的分割线步骤具体为:从中间格式数据中过滤出垂直直线和水平直线。进一步的,数据字典,其内容来源于常见的医学电子报告检验单的样式,其中表头内容作为关键字信息存储至数据字典中。进一步的,根据数据字典中存储的关键字逐行进行匹配,计算每行文本块出现关键字的频率,将表头坐标定位于频率高的行;当匹配度较低时,计算可能存在的分隔线形成的矩形来辅助定位表格起点。进一步的,定义表头步骤具体为:利用数据字典,拆分或重组上一步骤中发现的表头行,使之匹配为正确的表头列。进一步的,定义表的行和列步骤具体为:利用文本块分段算法,与表头距离判断,拆分或合并成与表头列数目符合的单元格。进一步的,定义表的行和列步骤后,对表格区域进行噪音去除,噪音指非表格内容的元素。进一步的,对于没有定义网格结构的,当单元格内文本过多被分配到下一行时,将跨行文本合并。本专利技术的一种信息处理的方法,以关键字为主,线条为辅的方法对医学电子报告中的信息进行提取与整理,实现低成本、高效率的自动化提取,支持多种样式的医学电子报告识别,涵盖了多种指标项的识别和解读,对电子报告中的不规则表格有较高的识别率。附图说明为了更清楚的说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单的介绍,显而易见的,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它附图。图1为本专利技术提供的一种信息处理的方法流程图。具体实施方式下面将结合本专利技术中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通的技术人员在没有做出创造性劳动的前提下所获得的所有其它实施例,都属于本专利技术的保护范围。一种从信息处理的方法,提取方法包括以下步骤:S01:获取医学电子报告中的中间格式数据;S02:对中间格式数据的坐标进行排序,以便之后可以按顺序逐行解析;依照先页后行再列的顺序对中间格式数据以及中间格式数据的坐标进行重新排序;具体的,先页后行再列的顺序具体包括:所有中间格式数据,按页划分,按页码升序排列;单个页面,按元素的Y坐标升序排序,Y坐标的垂直间距使元素划分为多行,行内元素按X坐标升序排序;S03:发现医学电子报告中的分割线;排除对角线或曲线等其他线条,从中间格式数据中过滤出垂直直线和水平直线;线条的存在有助于快速发现表格范围,但并非所有文件都能找到线条,此时需要建立数据字典,其内容来源于常见的医学报告检验单的样式,其中表头内容作为关键字信息存储至数据字典中。S04:获取医学电子报告中的表头,并将表头保存为关键字;根据预设的数据字典和关键字对表头坐标进行定位;具体的,根据数据字典中存储的关键字逐行进行匹配,计算每行文本块出现关键字的频率,将表头坐标定位于频率高的行;当匹配度较低时,计算可能存在的分隔线形成的矩形来辅助定位表格起点;表头坐标作为表格范围的起点坐标,表格底部通过特定算法,在起点坐标至末端元素间计算得到。具体的,末端元素指中间格式数据按照Y坐标、X坐标排序后的最末端文本块。S05:定义表头;利用数据字典,拆分或重组上一步骤中发现的表头行,使之匹配为正确的表头列;S06:定义表的行和列;利用文本块分段算法,与表头距离判断,拆分或合并成与表头列数目符合的单元格;例如“项目名称”与“结果”间有明显的空格,那么就能拆分成两部分,得到表头的具体信息,即知道了表格的列数,本实施例利用文本块分段算法,与表头距离、表头列的宽度来划分单元格。利用表格起点之后的行间隔变化、分隔线来确定表格底部的坐标,头尾范围确定之后,就需要排除可能存在的噪音,噪音指非表格内容的元素,即表格范围左右边缘的其他文本或斜线,通过表格起点行的文本块位置或分隔线长度来计算排除,这样就确定了表格的矩形范围。S07:将提取出来的表格信息转换成预设格式的文档并输出。具体的,对于没有完全定义网格结构的,当单元格内文本过多被分配到下一行时,将跨行文本合并。例如表头列“项目名称”左上角的坐标为x=50,y=40,右下角的坐标为x=110,y=55,记为集合A,A={50,60,70,80,90,100,110};文本块“不规则抗体筛查”左上角的坐标为x=50,y=60,右下角的坐标为x=150,y=75,记为集合B,B={50,60,70,80,90,100,110,120,130,140,150};则不为空集就表示文本块为这一列的一个单元格。以此类推将表格范围内的文本块拆分或合并成与表头列数目符合的单元格,当单元格内文本过多被分配到下一行时,通过合并单元格的方法将跨行文本合并。这样,表格提取就完成了,在完成数据提取之后,需要格式化输出表的数据。提取出来的表格转换成JSON格式或XML格式,保存指定路径。本专利技术的一种信息处理的方法,以关键字为主,线条为辅的方法对医学电子报告中的信息进行提取与整理,实现低成本、高效率的自动化提取,支持多种样式的医学电子报告识别,涵盖了多种指标项的识别和解读,对电子报告中的不规则表格有较高的识别率。采用上述方法,提高了对检验指标表格的识别率,免配置、高效率、方便大规模应用。以上借助具体实施例对本专利技术做了进一步描述,但是应该理解的是,这里具体的描述,不应理解为对本专利技术的实质和范围的限定,本领域内的普通技术人员在阅读本说明书后对上述实施例作出的各种修改,都属于本专利技术所保护的范围。本文档来自技高网...
一种信息处理的方法

【技术保护点】
1.一种信息处理的方法,其特征在于,所述提取方法包括以下步骤:获取医学电子报告中的中间格式数据;对所述中间格式数据的坐标进行排序;发现医学电子报告中的分割线;获取医学电子报告中的表头,并将表头保存为关键字,根据预设的数据字典和关键字对表头坐标进行定位;定义表头;定义表的行和列;将提取出来的表格信息转换成预设格式的文档并输出。

【技术特征摘要】
1.一种信息处理的方法,其特征在于,所述提取方法包括以下步骤:获取医学电子报告中的中间格式数据;对所述中间格式数据的坐标进行排序;发现医学电子报告中的分割线;获取医学电子报告中的表头,并将表头保存为关键字,根据预设的数据字典和关键字对表头坐标进行定位;定义表头;定义表的行和列;将提取出来的表格信息转换成预设格式的文档并输出。2.如权利要求1所述的一种信息处理的方法,其特征在于,所述对中间格式数据的坐标进行排序的步骤具体为:依照先页后行再列的顺序对所述中间格式数据以及所述中间格式数据的坐标进行重新排序。3.如权利要求2所述的一种信息处理的方法,其特征在于,所述先页后行再列的顺序具体包括:所有所述中间格式数据,按页划分,按页码升序排列;单个页面,按元素的Y坐标升序排序,Y坐标的垂直间距使元素划分为多行,行内元素按X坐标升序排序。4.如权利要求1所述的一种信息处理的方法,其特征在于,所述发现医学电子报告中的分割线步骤具体为:从所述中间格式数据中过滤出垂直直线和水平直线。5.如权利要求1所述的一种信息处理的方法,...

【专利技术属性】
技术研发人员:邱恒龙汉王海生
申请(专利权)人:深圳市巨鼎医疗设备有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1