医疗机构数据库构建方法、查询方法、装置、设备和介质制造方法及图纸

技术编号:26261246 阅读:24 留言:0更新日期:2020-11-06 17:58
本申请涉及一种医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质。所述方法包括:获取待处理的医疗机构数据;从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息;按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。采用本方法能够避免医疗机构信息出现的称不一致、不规范、重名、别名、错别字、信息缺失等问题,避免了人工复查的同时提高医疗机构信息的准确性。

【技术实现步骤摘要】
医疗机构数据库构建方法、查询方法、装置、设备和介质
本申请涉及医疗数据处理
,特别是涉及一种医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质。
技术介绍
随着信息处理技术的发展,企业数字化转型已经越来越成为企业数字化发展的重要课题,越来越多的企业通过数字化改变企业销售,变革内部运营,全面重塑业务。而对于医药医疗领域的企业而言,对医疗机构信息的数字化处理,则是医疗企业数字化转型的重要组成部分。目前,对医疗机构信息的处理大多是通过销售或技术工程师在客户关系管理平台手工录入例如机构名称,机构地址和机构所在区域等医疗机构信息形成医疗机构知识库。然而,这种医疗机构信息的处理方式,容易出现名称不一致、不规范、重名、别名、错别字、信息缺失等诸多问题,而如果需要人工复查,则需要花费大量的人力和时间来完成。因此,目前的医疗机构知识库中存储的医疗机构信息准确性低。
技术实现思路
基于此,有必要针对上述技术问题,提供一种医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质。一种医疗机构数据库构建方法,所述方法包括:获取待处理的医疗机构数据;从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。在其中一个实施例中,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,包括:从所述医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;将所述医疗机构名称以及所述医疗机构地址进行拼接,形成医疗机构区域信息字符串;从所述医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;若所述多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则获取各目标子字符串与所述预设的行政区划信息的匹配度;所述目标子字符串为与所述预设的行政区划信息相匹配的医疗机构区域信息子字符串;选取所述匹配度最大的目标子字符串所对应的行政区划信息作为所述区域信息。在其中一个实施例中,所述获取各目标子字符串与所述预设的行政区划信息的匹配度,包括:获取所述目标子字符串的信息完整度以及所述目标子字符串的次序;基于所述目标子字符串的信息完整度以及所述目标子字符串的次序确定所述匹配度。在其中一个实施例中,所述获取所述各医疗机构的机构类型信息,包括:从所述医疗机构数据中提取各医疗机构的医疗机构名称;将所述医疗机构名称输入预先构建的分类预测模型,获取所述机构类型信息。在其中一个实施例中,所述方法还包括:获取样本医疗机构的样本医疗机构数据以及所述样本医疗机构的样本机构类型;从所述样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对所述样本医疗机构名称进行分词处理,得到用于描述所述样本机构类型的多个命名实体词;获取由所述多个命名实体词按预设顺序组成的共现词组;基于所述样本机构类型,利用所述多个命名实体词以及所述共现词组进行训练,得到所述分类预测模型。在其中一个实施例中,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息之前,所述方法还包括:基于预设的错别字库,对所述医疗机构数据中的错别字进行修正;基于预设的缩写词库,对所述医疗机构数据中的缩写词进行还原;和/或基于预设的地域名称别名词库,对所述医疗机构数据中的地域名称进行还原。在其中一个实施例中,所述获取待处理的医疗机构数据之后,所述方法还包括:按照词序从所述医疗机构数据中提取出多个关键词信息;若所述关键词信息与所述关键词信息的上一个关键词信息相同,则将所述关键词信息删除;将剩余的多个关键词信息按照所述词序拼接得到医疗机构数据;其中,拼接得到的所述医疗机构数据,用于获取所述机构区域信息和所述机构类型信息。一种医疗机构数据查询方法,所述方法包括:获取待查询医疗机构的文本信息;向医疗机构数据库发送携带所述文本信息的数据查询请求;所述数据查询请求,用于所述医疗机构数据库反馈与所述文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;所述医疗机构数据库,根据如上述的医疗机构数据库构建方法构建;获取所述医疗机构数据库反馈的所述至少一个机构描述信息。一种医疗机构数据库构建装置,所述装置包括:机构数据获取模块,用于获取待处理的医疗机构数据;机构信息提取模块,用于从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;信息规范处理模块,用于按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;信息去重处理模块,用于对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;数据库构建模块,用于基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。一种医疗机构数据查询装置,所述装置包括:文本信息获取模块,用于获取待查询医疗机构的文本信息;查询请求发送模块,用于向医疗机构数据库发送携带所述文本信息的数据查询请求;所述数据查询请求,用于所述医疗机构数据库反馈与所述文本信息的匹配度大于预设匹配度阈值的至少一个机构描述信息;所述医疗机构数据库,根据如上述的医疗机构数据库构建方法构建;描述信息获取模块,用于获取所述医疗机构数据库反馈的所述至少一个机构描述信息。一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述方法的步骤。一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述的方法的步骤。上述医疗机构数据库构建方法、医疗机构数据查询方法、装置、计算机设备和存储介质,获取待处理的医疗机构数据;从医疗机构数据中获取各医疗机构的机构区域信息,以及获取各医疗机构的机构类型信息;按照预设的规范化格式,将机构区域信息和机构类型信息转化为针对于各医疗机构的机构描述信息,得到多个第一机构描述信息;对多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;基于多个第二机构描述信息,得到针对于各医疗机构的医疗机构数据库。本申请通过对医疗机构数据进行规范化处理,并进行去重合并从而构建医疗机构数据库,可以避免医疗机构信息出现的称不一致、不规范、重名、别名、错别字、信息缺失等问题,避免了人工复查的同时,还可以提高医疗机构信息的准确性。附图说明图1为一个实施例中医疗机构数据库构建方法的应用环境图;图2为一个实施例中医疗机构数据库构建方法的流程示意图;图3为一个实施例中从医疗机构数据中获取各医本文档来自技高网...

【技术保护点】
1.一种医疗机构数据库构建方法,其特征在于,所述方法包括:/n获取待处理的医疗机构数据;/n从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;/n按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;/n对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;/n基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。/n

【技术特征摘要】
1.一种医疗机构数据库构建方法,其特征在于,所述方法包括:
获取待处理的医疗机构数据;
从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息;
按照预设的规范化格式,将所述机构区域信息和机构类型信息转化为针对于所述各医疗机构的机构描述信息,得到多个第一机构描述信息;
对所述多个第一机构描述信息进行去重合并处理,得到多个第二机构描述信息;
基于所述多个第二机构描述信息,得到针对于所述各医疗机构的医疗机构数据库。


2.根据权利要求1所述的方法,其特征在于,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,包括:
从所述医疗机构数据中提取各医疗机构的医疗机构名称以及医疗机构地址;
将所述医疗机构名称以及所述医疗机构地址进行拼接,形成医疗机构区域信息字符串;
从所述医疗机构区域信息字符串中按预设顺序提取至少包含一个字符的子字符串,形成多个医疗机构区域信息子字符串;
若所述多个医疗机构区域信息子字符串与预设的行政区划信息相匹配,则获取各目标子字符串与所述预设的行政区划信息的匹配度;所述目标子字符串为与所述预设的行政区划信息相匹配的医疗机构区域信息子字符串;
选取所述匹配度最大的目标子字符串所对应的行政区划信息作为所述区域信息。


3.根据权利要求2所述的方法,其特征在于,所述获取各目标子字符串与所述预设的行政区划信息的匹配度,包括:
获取所述目标子字符串的信息完整度以及所述目标子字符串的次序;
基于所述目标子字符串的信息完整度以及所述目标子字符串的次序确定所述匹配度。


4.根据权利要求1所述的方法,其特征在于,所述获取所述各医疗机构的机构类型信息,包括:
从所述医疗机构数据中提取各医疗机构的医疗机构名称;
将所述医疗机构名称输入预先构建的分类预测模型,获取所述机构类型信息。


5.根据权利要求4所述的方法,其特征在于,所述方法还包括:
获取样本医疗机构的样本医疗机构数据以及所述样本医疗机构的样本机构类型;
从所述样本医疗机构数据中提取各样本医疗机构的样本医疗机构名称,对所述样本医疗机构名称进行分词处理,得到用于描述所述样本机构类型的多个命名实体词;
获取由所述多个命名实体词按预设顺序组成的共现词组;
基于所述样本机构类型,利用所述多个命名实体词以及所述共现词组进行训练,得到所述分类预测模型。


6.根据权利要求1所述的方法,其特征在于,所述从所述医疗机构数据中获取各医疗机构的机构区域信息,以及获取所述各医疗机构的机构类型信息之前,所述方法还包括:
基于预设的错别字库,对所述医疗机构数据中的错别字进行修正;
基于预设的缩写词库...

【专利技术属性】
技术研发人员:黄进然林璟司亚彪
申请(专利权)人:广州万孚生物技术股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1