【技术实现步骤摘要】
一种基于XML电子病历自动解析方法
[0001]本专利技术涉及电子病历
,特别涉及一种基于XML电子病历自动解析方法。
技术介绍
[0002]现阶段状况电子病历解析,存在以下问题:
[0003](1)不同HIS存储全病案数据采用的数据格式多数是不同的。
[0004](2)同一家医院,数据格式模板是一样的。
[0005](3)在业务应用系统中,通常需要将HIS存储的数据转换为结构化数据,便于更好的利用数据价值。
[0006]针对上述状况或诉求,目前常用的数据组解析的方法是对纯文本数据进行自动解析。专利(申请号CN202110618183.3,一种自动化电子病历解析方法与装置)公开的电子病历解析方法存在的问题:每家医院都需人工进行数据分析、配置,人工成本大;不同医院的数据格式可能存在相同的规律,但同样需人工分析处理;人工分析效率低;仅能处理纯文本。
技术实现思路
[0007]本专利技术的目的旨在至少解决所述技术缺陷之一。
[0008]为此,本专利技术的目的在于提出一种 ...
【技术保护点】
【技术特征摘要】
1.一种基于XML电子病历自动解析方法,其特征在于,包括如下步骤:步骤S1,输入XML电子病历数据集D1;步骤S2,对所述电子病历数据集进行数据清洗,生成清洗后的数据集D2;步骤S3,对所述清洗后的数据集D2自动生成配置,包括:对数据集D2中的所有行数据,按照文本内容长度大小降序排序,得到数据集D3;遍历数据集D3,对相同的元组取文本内容最长的行,构成数据集D4;遍历数据集D4中的每一行数据,将该行数据的文本内容值解析得到XML树;对列表中的元素按进行统计,取出现次数最多的嵌套解析的文本名称取值方式,记为X1;遍历数据集D4中的每一行数据,将该行数据的文本内容值解析得到XML树;分别对所有的名称节点、内容节点按照tag名称统计,分别取tag名称出现次数最多的节点做平铺名称节点、平铺内容节点;如果平铺名称节点与平铺内容节点的tag名称一致,则生成平铺解析的文本名称、文本内容定位和取值方式,记为X3;根据X3文本内容的取值方式,生成嵌套解析文本内容定位及取值方式,记为X2;对X1和X2进行拼接,得到嵌套解析的文本名称、文本内容定位及取值方式,然后与X3一并写入数据库中;完成自动解析配置生成;步骤S4,在配置完成后,解析电子病历数据,包括:从数据库中获取电子病历解析配置列表C1;遍历数据集D2中的每一行数据,由解析配置列表C1中解析器对数据进行处理,其中,所述解析器包括平铺解析器和嵌套解析器;根据数据的配置信息选择对应的解析器进行解析;合并每个解析器处理得到的结果列表,将结果列表添加到数据集D3中;将数据集D3写入到csv文件中,解析完成。2.如权利要求1所述的基于XML电子病历自动解析方法,其特征在于,在所述步骤S1中,所述电子病历数据集D1包括:病案号、病案名称、文本名称和文本内容。3.如权利要求1所述的基于XML电子病历自动解析方法,其特征在于,在所述步骤S2中,所述数据清洗,包括如下步骤:删除字段缺失的数据、删除取值不在字段合理取值范围内的数据。4.如权利要求1所述的基于XML电子病历自动解析方法,其特征在于,在所述步骤S3中,遍历数据集D3,对相同的病案名称和文本名称,取文本内容最长的行,构成数据集D4。5.如权利要求1所述的基于XML电子病历自动解析方法,其特征在于,在所述步骤S3中,所述遍历数据集D4中的...
【专利技术属性】
技术研发人员:许福坤,周振华,张友书,程岚,祝伟,
申请(专利权)人:北京雅丁信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。