System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及人工智能,具体涉及一种基于深度神经网络的医疗卫生机构信息数据标准化方法。
技术介绍
1、医疗卫生机构包含医院、基层医疗卫生机构、专业公共卫生机构及其他机构。
2、随着医疗卫生服务体系规划逐渐完善,医疗信息化建设也越趋重要。对医疗机构而言,数字化建设和智慧医疗建设同样是其改革的重点。医疗卫生机构应用医疗信息化系统可以简化就医流程,实现医疗服务的流程化、规范化管理,并提高医疗服务水平,提升患者就医体验。
3、可是医疗卫生机构的数据来源所遵循的官方标准多样且信息不统一,从不同的官方网站获取的关于同一医疗卫生机构的数据信息极具差异性,如:数据属性不全,地址登记/注册描述不一致,名称不一致等。这使得多来源数据的合并具有一定的难度。因此需对数据进行清洗处理后入库为主数据。
4、医疗卫生机构数据整合、治理、标准是重要问题,其中医疗卫生机构名称及地址等相关信息抽取最为关键问题。当前的医疗卫生机构信息数据治理流程主要基于传统的规则来处理,具体地分为以下几个阶段:人工数据查验,正则表达的传统数据清洗,数据映射,数据去重合并,数据人工校验,最后到数据入库。
5、显然,当前的医疗卫生机构数据标准化治理技术存在如下的问题:
6、1)海量数据,消耗大量时间及人力:
7、传统处理大部分基于规则进行,贯穿了数据治理的整个过程,治理前,人工对特殊符号、不合规属性内容进行整理、对先验知识与规则进行设定;数据处理中,人工对数据准确性进行审查,特殊数据作记录;数据治理后,人工对处理的
8、2)多名称拆分与非连接地址元素抽取不完整:
9、获取信息时,数据记录差异性过大,易造成拆分错误。例如“滁州市第二人民医院(市传染病医院、市精神病医院)”,易拆分为“市传染病医院”,实际应为“滁州市传染病医院”;再例如医疗机构名称“黄塘医院(中山大学附属梅州医院)扶大院区”,易误拆分为“扶大院区”,实际应为“黄塘医院扶大院区及中山大学附属梅州医院扶大院区”;
10、3)医疗卫生机构地址文本质量低,先验知识缺乏,造成准确率低:
11、①地址文本内容短缺,描写不具体或无相关区划描述,或行政区划中不同省份存在重复区划。
12、②卫生机构登记后,行政区划发生变更导致:ⅰ、登记的地址文本中描述变更前区划与其它省份或地区区划相同;ⅱ、地址文本中变更前区划在行政区划标准中无记录,例如“杭州市余杭区星桥街道藕花洲大街西段555、557号”,由于原余杭区撤销,后来设立了新的余杭区、临平区,所以该地址解释的“余杭区”应该是新设的“临平区”,存在一致性问题。
13、③地址文本中内容描述为简称,村、路、社区等不规范描写等情况较多,例如“巴彦高勒镇贺兰社区”,实为“贺兰居委会”。
技术实现思路
1、针对现有技术的不足,本专利技术旨在提供一种基于深度神经网络的医疗卫生机构信息数据标准化方法。
2、为了实现上述目的,本专利技术采用如下技术方案:
3、基于深度神经网络的医疗卫生机构信息数据标准化方法,具体包括如下步骤:
4、s1、由专业人员收集通用地址区域关系和医疗卫生机构的原始信息数据;
5、s2、对结构化数据,即通用地址区域关系进行初始化,构建地址元素图谱;所述地址元素图谱设置为八层,具体包括:
6、第一层为经纬层,节点内容为具体地址对应的纬经度信息;
7、第二层为地址层,节点内容为具体地址,表示上层节点路径的具体地址;
8、第三层为村层,表示行政区分级中的第五层结构,包括居委会、村委会;
9、第四层为镇层,表示行政区分级中的第四层结构,包括镇、乡、街道;
10、第五层为区层,表示行政区分级中的第三层结构,包括区、地级市;
11、第六层为市层,表示行政区分级中的第二层结构,包括市;
12、第七层为省层,表示行政区分级中的第一层结构,包括省、直辖市;
13、第八层为国家层,表示国家概念的根节点;
14、记初始化后的地址元素图谱为g_0;初始化时,地址元素图谱各层具体的规则如下:
15、第八层只初始化一个根节点;
16、第三层到第七层采用国家统计局行政区划分来进行初始化,完成省、市、区、镇、村五层的数据初始化;
17、第二层的初始化,是根据第三层到第七层形成的完整名称,通过开放地理信息api或企业注册网站获取医生卫生机构的具体地址;
18、第一层的初始化,是对第二层的具体地址进行经纬度转换,获得经纬度数据;
19、s3、地址元素图谱自学习:
20、某一轮地址元素自学习具体过程如下:
21、s3.1、加载全量医疗卫生机构信息数据raw_data,获取其中的地理信息的相关内容,保存在a_map_infos表中;
22、s3.2、加载训练好的深度神经网络模型,即深度地址要素抽取模型nn_model,遍历raw_data,记raw_data的每条记录为raw_x,对每条记录利用模型nn_model进行预测,seq_list=nn_model(raw_x),解释地址元素实体,预测结果保存在e_set_infos表中;
23、s3.3、把a_map_infos表与e_set_infos表根据主键关联起来,形成表e_table_infos;
24、s3.4、遍历e_tables_infos表中的元素,形成遍历的时序列e_seq_x,元素记为elmnt;按e_seq_x时序列与地址元素图谱g_0进行自上而下进行匹配,如果完全匹配,从地址元素图谱g_0中取出元素记为std_elmnt,并转到步骤s3.6,如果不完全匹配转向步骤s3.5,否则结束;匹配过程中需要严格按照顺序,类型与文本均一致即为匹配成功;
25、s3.5、获取不匹配的层号,并列出其所有孩子分支的经纬度,得到列表kg_map_als;获取e_seq_x对应地址的经纬度map_al,将map_al与kg_map_als中各个元素分别计算距离,取距离最小值mid_dist对应的元素记录为两元素三元组,关系是共现,记为(elmnt,std_elmnt,co_occur),其中两个经纬度的距离计算公式为:
26、
27、其中,r表示地球半径,表示两个地址的经纬坐标;
28、s3.6、以上层节点作为条件,对地址元素进行频率统计;
29、s3.7、合并全库地址元素对,并计算地址元素与地址元素图谱中标准地址元素的相似度分布,具体公式为:
30、
31、其中,freq(·)为频率统计操作;
32、s3.8、把计算的相似度更新到地本文档来自技高网...
【技术保护点】
1.基于深度神经网络的医疗卫生机构信息数据标准化方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤S3中,深度地址要素抽取模型的构建及训练过程如下:
3.根据权利要求2所述的方法,其特征在于,数据标注采用主动标注策略完成,所述主动标注策略包括和基于模型的主动选择策略;所述数据标注的具体流程如下:
4.根据权利要求3所述的方法,其特征在于,采用基于模型的主动选择策略进行数据标注的具体过程如下:
【技术特征摘要】
1.基于深度神经网络的医疗卫生机构信息数据标准化方法,其特征在于,具体包括如下步骤:
2.根据权利要求1所述的方法,其特征在于,步骤s3中,深度地址要素抽取模型的构建及训练过程如下:
3.根据权利要求2所述的...
【专利技术属性】
技术研发人员:唐珂轲,梁锐,吴豪,梁志玲,林子莹,
申请(专利权)人:广州中康数字科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。