基于ES的医疗主索引抽取合并方法及系统技术方案

技术编号:39247029 阅读:14 留言:0更新日期:2023-10-30 11:59
本发明专利技术提供一种基于ES的医疗主索引抽取合并方法及系统,将数据全量抽取到sqlserver中存储,再从sqlserver中抽取数据到elasticsearch中进行抽取合并,完成主索引初始化后,并行进行实时和准实时的增量抽取,并在每次增量抽取后记录当前快照的最后一条数据的数据更新时间,在下一次增量抽取时,以所述数据更新时间为基准并回退一秒后开始增量抽取,以使临界值的数据重复处理一次。本发明专利技术的方案可实现海量数据下的高效查询,并能够增量抽取和自动修复,实现业务解耦,满足数据溯源,解决准实时性压力负载问题。解决准实时性压力负载问题。解决准实时性压力负载问题。

【技术实现步骤摘要】
基于ES的医疗主索引抽取合并方法及系统


[0001]本专利技术属于医疗软件
,涉及医疗主索引,具体涉及一种基于ES的医疗主索引抽取合并方法及系统。

技术介绍

[0002]目前,市面上的医疗主索引管理解决了患者信息主索引。现有技术中,多根据规则,通过单一的数据库中数据对比方式进行主索引合并,如图1所示为现有技术的一种传统新增主索引方法流程,通过主索引配置后进行抽取数据,然后形成主索引,这种方式不能做到通用化和及时性;并且一般具体是单一的数据库数据的字符串匹配处理,这样的方式限制了能处理的规则,缺乏权重处理机制,也不方便进行主索引信息的完善;并且遗漏数据是不可避免的问题,在大量数据的情况下数据查询效率低,且不具备自动修复的能力。

技术实现思路

[0003]为解决上述相关现有技术不足,本专利技术提供一种基于ES的医疗主索引抽取合并方法及系统,实现海量数据下的高效查询,并能够增量抽取和自动修复,实现业务解耦,满足数据溯源,解决准实时性压力负载问题。
[0004]为了实现本专利技术的目的,拟采用以下方案:一种基于ES的医疗主索引抽取合并方法,包括步骤:将第三方医疗数据全量抽取到sqlserver中进行临时存储;根据预先配置的主索引合并规则,从sqlserver中抽取数据到elasticsearch中,并在elasticsearch所创建的索引中预留四个空字段:groupId,ruleId,isMerge,isHead,其中,groupId表示合并后同一个组的id字符串,ruleId表示规则的id,isMerge表示是否为合并数据,isHead表示是否为主索引数据;对elasticsearch进行http的交互请求,将符合所述合并规则的数据分到同一个groupId中,并且对ruleId进行赋值,并将isMerge打上常量值标记以与未合并的数据区分;根据预先配置的主索引选举规则,从当前同一个groupId且isMerged相同的数据里面选择一条作为主索引数据,并对isHead打上常量标记;发送http请求到elasticsearch,修改并添加主索引数据,完成主索引初始化;并行进行实时和准实时的增量抽取,其中,实时抽取是将通过对外暴露的接口获取到的第三方通过http请求传入的数据入库到sqlserver中并同时推送到elasticsearch中进行合并操作,准实时抽取是根据预先配置的抽取频率从sqlserver中抽取增量数据到elasticsearch中进行合并操作;其中,在每次增量抽取后记录当前快照的最后一条数据的数据更新时间,在下一次增量抽取时,以所述数据更新时间为基准并回退一秒后开始增量抽取,以使临界值的数据重复处理一次。
[0005]一种基于ES的医疗主索引抽取合并系统,包括:
全量抽取模块,用于将第三方医疗数据全量抽取到sqlserver中进行临时存储;并根据预先配置的主索引合并规则,从sqlserver中抽取数据到elasticsearch中,并在elasticsearch所创建的索引中预留四个空字段:groupId,ruleId,isMerge,isHead;并对elasticsearch进行http的交互请求,将符合所述合并规则的数据分到同一个groupId中,并且对ruleId进行赋值,并将isMerge打上常量值标记以与未合并的数据区分;并根据预先配置的主索引选举规则,从当前同一个groupId且isMerged相同的数据里面选择一条作为主索引数据,并对isHead打上常量标记;并发送http请求到elasticsearch,修改并添加主索引数据,完成主索引初始化;增量抽取模块,用于并行进行实时和准实时的增量抽取,其中,实时抽取是将通过对外暴露的接口获取到的第三方通过http请求传入的数据入库到sqlserver中并同时推送到elasticsearch中进行合并操作,准实时抽取是根据预先配置的抽取频率从sqlserver中抽取增量数据到elasticsearch中进行合并操作;自动修复模块,用于在每次增量抽取后记录当前快照的最后一条数据的数据更新时间,并以所述数据更新时间为基准,回退一秒作为增量抽取模块进行下一次增量抽取的数据开始处,以使临界值的数据重复处理一次。
[0006]一种电子设备,包括:至少一个处理器和存储器;其中,所述存储器存储有计算机执行指令;在所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行所述的基于ES的医疗主索引抽取合并方法。
[0007]一种计算机可读存储介质,其上存储有计算机程序,在所述计算机程序被处理器运行时控制所述存储介质所在设备执行所述的基于ES的医疗主索引抽取合并方法。
[0008]本专利技术的有益效果:1、对比传统的主索引管理,本专利技术采用sqlserver+elasticsearch的存储和查询核心体系架构,使得主索引可以满足业务数据溯源,并且形成业务解耦,DB分层,sqlserver作何客观数据库同时具备业务缓冲区的作用,elasticsearch作为核心存储和查询,提供海量数据高效查询的能力;2、增量抽取和自动修复,可以到达分钟级的准实时数据抽取,所有的增量数据可以在分钟级别的粒度进行大数据体系下的呈现,并且配有自动修复遗漏数据的特性,采取数据更新时间往前拨一秒,可以将边界数据出现丢失的概率大大降低,保证数据的完整度。
附图说明
[0009]图1示出了现有技术的一种新增主索引方法流程图。
[0010]图2示出了本申请实施例的基于ES的医疗主索引抽取合并方法简略流程图。
[0011]图3示出了本申请实施例的基于ES的医疗主索引抽取合并方法完整流程图。
[0012]图4示出了本申请实施例的主索引配置示例。
[0013]图5示出了本申请实施例的规则权重配置示例。
[0014]图6示出了本申请实施例的规则权重审核结果示例。
[0015]图7示出了本申请实施例的增量抽取和自动修复的流程图。
[0016]图8示出了本申请实施例的基于ES的医疗主索引抽取合并系统结构框图。
具体实施方式
[0017]为使本专利技术实施例的目的、技术方案和优点更加清楚,下面结合附图对本专利技术的实施方式进行详细说明,但本专利技术所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。
[0018]本申请实施例的一个方面,提供一种基于ES的医疗主索引抽取合并方法,其中ES,为elasticsearch的简称。具体的,如图2

图3所示,本实例的方法包括如下步骤:S100、主索引配置:选取要进行主索引业务的模型。如图4所示展示了一种进行主索引配置的示例。
[0019]S200、规则权重配置:对上一步选取的模型做相应的规则配置和权重配置,规则配置包括合并规则配置和选举规则配置,如图5所示为一种配置示例。
[0020]在本实例中,合并规则可以是将对预定字段配置为相同值的数据进行合并,比如规则名词中的患者姓名匹配相同值。选举规则可以是数据最全的一条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于ES的医疗主索引抽取合并方法,其特征在于,包括步骤:将第三方医疗数据全量抽取到sqlserver中进行临时存储;根据预先配置的主索引合并规则,从sqlserver中抽取数据到elasticsearch中,并在elasticsearch所创建的索引中预留四个空字段:groupId,ruleId,isMerge,isHead;对elasticsearch进行http的交互请求,将符合所述合并规则的数据分到同一个groupId中,并且对ruleId进行赋值,并将isMerge打上常量值标记以与未合并的数据区分;根据预先配置的主索引选举规则,从当前同一个groupId且isMerged相同的数据里面选择一条作为主索引数据,并对isHead打上常量标记;发送http请求到elasticsearch,修改并添加主索引数据,完成主索引初始化;并行进行实时和准实时的增量抽取,其中,实时抽取是将通过对外暴露的接口获取到的第三方通过http请求传入的数据入库到sqlserver中并同时推送到elasticsearch中进行合并操作,准实时抽取是根据预先配置的抽取频率从sqlserver中抽取增量数据到elasticsearch中进行合并操作;其中,在每次增量抽取后记录当前快照的最后一条数据的数据更新时间,在下一次增量抽取时,以所述数据更新时间为基准并回退一秒后开始增量抽取,以使临界值的数据重复处理一次。2.根据权利要求1所述的基于ES的医疗主索引抽取合并方法,其特征在于,groupId表示合并后同一个组的id字符串,ruleId表示规则的id,isMerge表示是否为合并数据,isHead表示是否为主索引数据。3.根据权利要求1所述的基于ES的医疗主索引抽取合并方法,其特征在于,预先配置的主索引合并规则是指将对预定字段配置为相同值的数据进行合并。4.一种基于ES的医疗主索引抽取合并系统,其特征在于,包括:全量抽取模块,用于将第三方医疗数据全量抽取到sqlserver中进行临时存储;并根据预先配置的主索引合并规则,从sqlserver中抽取数据到elasticsearch中,并在elasticsearch所创建的索引中预留四个空字段:groupI...

【专利技术属性】
技术研发人员:关潇逸雷雨黄攀
申请(专利权)人:成都医星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1