【技术实现步骤摘要】
基于深度神经网络的医疗卫生机构信息数据标准化方法
[0001]本专利技术涉及人工智能
,具体涉及一种基于深度神经网络的医疗卫生机构信息数据标准化方法。
技术介绍
[0002]医疗卫生机构包含医院、基层医疗卫生机构、专业公共卫生机构及其他机构。
[0003]随着医疗卫生服务体系规划逐渐完善,医疗信息化建设也越趋重要。对医疗机构而言,数字化建设和智慧医疗建设同样是其改革的重点。医疗卫生机构应用医疗信息化系统可以简化就医流程,实现医疗服务的流程化、规范化管理,并提高医疗服务水平,提升患者就医体验。
[0004]可是医疗卫生机构的数据来源所遵循的官方标准多样且信息不统一,从不同的官方网站获取的关于同一医疗卫生机构的数据信息极具差异性,如:数据属性不全,地址登记/注册描述不一致,名称不一致等。这使得多来源数据的合并具有一定的难度。因此需对数据进行清洗处理后入库为主数据。
[0005]医疗卫生机构数据整合、治理、标准是重要问题,其中医疗卫生机构名称及地址等相关信息抽取最为关键问题。当前的医疗卫生机构信息数据治理流程主要基于传统的规则来处理,具体地分为以下几个阶段:人工数据查验,正则表达的传统数据清洗,数据映射,数据去重合并,数据人工校验,最后到数据入库。
[0006]显然,当前的医疗卫生机构数据标准化治理技术存在如下的问题:
[0007]1)海量数据,消耗大量时间及人力:
[0008]传统处理大部分基于规则进行,贯穿了数据治理的整个过程,治理前,人工对特殊符号、不合规属性内容 ...
【技术保护点】
【技术特征摘要】
1.基于深度神经网络的医疗卫生机构信息数据标准化方法,其特征在于,具体包括如下步骤:S1、由专业人员收集通用地址区域关系和医疗卫生机构的原始信息数据;S2、对结构化数据,即通用地址区域关系进行初始化,构建地址元素图谱;所述地址元素图谱设置为八层,具体包括:第一层为经纬层,节点内容为具体地址对应的纬经度信息;第二层为地址层,节点内容为具体地址,表示上层节点路径的具体地址;第三层为村层,表示行政区分级中的第五层结构,包括居委会、村委会;第四层为镇层,表示行政区分级中的第四层结构,包括镇、乡、街道;第五层为区层,表示行政区分级中的第三层结构,包括区、地级市;第六层为市层,表示行政区分级中的第二层结构,包括市;第七层为省层,表示行政区分级中的第一层结构,包括省、直辖市;第八层为国家层,表示国家概念的根节点;记初始化后的地址元素图谱为G_0;初始化时,地址元素图谱各层具体的规则如下:第八层只初始化一个根节点;第三层到第七层采用国家统计局行政区划分来进行初始化,完成省、市、区、镇、村五层的数据初始化;第二层的初始化,是根据第三层到第七层形成的完整名称,通过开放地理信息API或企业注册网站获取医生卫生机构的具体地址;第一层的初始化,是对第二层的具体地址进行经纬度转换,获得经纬度数据;S3、地址元素图谱自学习:某一轮地址元素自学习具体过程如下:S3.1、加载全量医疗卫生机构信息数据raw_data,获取其中的地理信息的相关内容,保存在a_map_infos表中;S3.2、加载训练好的深度神经网络模型,即深度地址要素抽取模型NN_Model,遍历raw_data,记raw_data的每条记录为raw_x,对每条记录利用模型NN_Model进行预测,seq_list=NN_Model(raw_x),解释地址元素实体,预测结果保存在e_set_infos表中;S3.3、把a_map_infos表与e_set_infos表根据主键关联起来,形成表e_table_infos;S3.4、遍历e_tables_infos表中的元素,形成遍历的时序列e_seq_x,元素记为elmnt;按e_seq_x时序列与地址元素图谱G_0进行自上而下进行匹配,如果完全匹配,从地址元素图谱G_0中取出元素记为std_elmnt,并转到步骤S3.6,如果不完全匹配转向步骤S3.5,否则结束;匹配过程中需要严格按照顺序,类型与文本均一致即为匹配成功;S3.5、获取不匹配的层号,并列出其所有孩子分支的经纬度,得到列表kg_map_als;获取e_seq_x对应地址的经纬度map_al,将map_al与kg_map_als中各个元素分别计算距离,取距离最小值mid_dist对应的元素记录为两元素三元组,关系是共现,记为(elmnt,std_elmnt,co_occur),其中两个经纬度的距离计算公式为:
其中,R表示地球半径,表示两个地址的经纬坐标;S3.6、以上层节点作为条件,对地址元素进行频率统计;S3.7、合并全库地址元素对,并计算地址元素与地址元素图谱中标准地址元素的相似度分布,具体公式为:其中,freq(
·
)为频率统计操作;S3.8、把计算的相似度更新到地址元素图谱中,完成本轮学习。2.根据权利要求1所述的方法,其特征在于,步骤S3中,深度地址要素抽取模型的构建及训练过程如下:D1、对样本数据进行清洗:将样本数据转为brat格式,并清洗掉多余空格;将清洗之后的数据集划分为训练集、验证集与测试集;对每个实体类型按照BIOS标注方式生成4种标签形式,并以JSON格式保存;D2、将清洗后的训练集输入BERT+CRF模型进行训练,然后采用验证集进行调参,最后采用测试集对BERT+CRF模型进行评估;BERT+CRF模型架构包括输入层、嵌入层、编码层、CRF层及输出层;其中编码层由12个结构完全一致的编码块连接而成;BERT模型的基础参数为:学习率lr=2e
-5
,多头注意力机制头数h=12,encoder块个数k=12,丢弃率dropout rate=0.4;BERT+CRF模型对输入文本的具体处理过程为:D2.1、文本经过Token Embeddings、Segment Embeddings、以及Position Embeddings后表示成向量的形式,记为X
token
、X
segment
、X
position
;D2.2、将3个向量X
token
、X
segment
和X
position
相加,并进行归一化处理:记相加后的向量为X
embedding
...
【专利技术属性】
技术研发人员:唐珂轲,梁锐,吴豪,梁志玲,林子莹,
申请(专利权)人:广州中康数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。