一种基于区域大数据的健康数据治理方法和系统技术方案

技术编号:38229578 阅读:8 留言:0更新日期:2023-07-25 17:58
本发明专利技术公开了一种基于区域大数据的健康数据治理方法,该方法包括以下步骤:步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;步骤二:对挂载的引擎数据进行智能化治理;步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则;步骤四:基于治理后的数据通过配置的规则处置后,生成消息数据并对这些消息数据解析分类存储,形成以人为维度的医疗健康事件消息;步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将结果数据推送至目标应用或管理人员,本发明专利技术,具有提升数据利用深度和利用时效性的特点。深度和利用时效性的特点。深度和利用时效性的特点。

【技术实现步骤摘要】
一种基于区域大数据的健康数据治理方法和系统


[0001]本专利技术涉及健康数据治理
,具体为一种基于区域大数据的健康数据治理方法和系统。

技术介绍

[0002]现有对卫生医疗大数据进行治理和利用的主要方法途径是:按各卫生健康管理部门工作需求构建相关的主题数据仓库进行有效利用,但针对医疗卫生事件处理时效性要求的提高,现有的中心主题数据仓库利用模式严重制约了业务响应速度,业务人员提出来的业务规则在主题库数仓中依赖开发商工程师做需求调查、业务场景理解后才能进入到代码开发、测试、业务验证等环节,数据利用人员不能自由、随时、可视化地制订业务规则,缺乏业务规则制订的灵活性,且后期维护也要依托开发公司工程师来完成,缺可运维管理性,且主题库数仓ETL脚本不具备从非结构化数据中提取医学实体的算法能力,无法精准识别出医疗事件所需的医学数据,导致数据有效利用率较低,数据价值发挥不足的问题,因此,设计提升数据利用深度和利用时效性的一种基于区域大数据的健康数据治理方法和系统是很有必要的。

技术实现思路

[0003]本专利技术的目的在于提供一种基于区域大数据的健康数据治理方法和系统,以解决上述
技术介绍
中提出的问题。
[0004]为了解决上述技术问题,本专利技术提供如下技术方案:一种基于区域大数据的健康数据治理方法,包括以下步骤:
[0005]步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;
[0006]步骤二:对挂载的引擎数据进行智能化治理;
[0007]步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则,由事实数据驱动,通过不断地遵循引擎规则分析得出数据结论;
[0008]步骤四:基于治理后的数据通过配置的规则处置后,生成一系列医疗事实库的消息数据,对这些消息数据解析分类并存储形成以人为维度的医疗健康事件消息;
[0009]步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;
[0010]步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将引擎算法生成的结果数据,推送至目标应用或管理人员。
[0011]根据上述技术方案,所述对海量数据进行挂载处理的步骤,包括:
[0012]采集系统中实时上传至数据中心的海量数据,通过数据归集任务监测程序,将个人健康引擎所需的数据同步、自动挂载进来。
[0013]根据上述技术方案,所述对挂载的引擎数据进行智能化治理的步骤,包括:
[0014]采用自然语言处理NLP中的实体归一化算法,参照医学术语规范,将病历中症状、体征、疾病、操作以及特征数据如持续时间、阴阳性、疾病的诊断等进行细化提取,并采用字
符串编辑距离算法对提取的数据进行标准术语转换处理,实现包括全词匹配、组分对齐、编码版本对齐的功能;
[0015]将药品归一到药监局国药准字、诊断和手术归一到ICD

10编码上,实现医学术语的对齐,同时使用先检索再重排的归一化策略,并引入细粒度特征做模型融合;
[0016]将数据转换为HL7、ICD

10的国际标准,软件数据字典遵循国家数据字典、省部委数据字典、地区和用户数据字典规范,将处理的数据存储于分布式引擎数据库中形成结构化的数据。
[0017]根据上述技术方案,所述对挂载的引擎数据进行智能化治理的步骤,还包括:
[0018]进行医疗实体识别;采用基于BERT的边界增强神经网络分类算法,从文本数据中提取医疗实体,对医疗实体进行数据应用,通过将原始病历处理为以章节为单位、字段命名统一的标准病历形式,对篇章级、段落级、语句级文本进行多尺度拆解,实现关键字段和对应文本的实时抽取,并将抽取的数据存储于分布式引擎数据库中,通过医疗实体识别算法处理,从多条检查所见数据中提取出“斑块、阴影、房颤、血压异常”的阳性症状。
[0019]根据上述技术方案,所述根据医疗业务需要和业务逻辑制订相应的引擎规则的步骤,包括:
[0020]通过可视化界面进行引擎规则的自由定制;
[0021]采用基于知识的规则推理,解析数据表格、知识文本中的规则信息;
[0022]以分布式引擎数据库为基础,建立事实数据库和规则库,并将规则对象构成动态链表,形成规则逻辑单元。
[0023]根据上述技术方案,所述通过不断地遵循引擎规则分析得出数据结论的步骤,包括:
[0024]每次规则推理都会依次调用规则链中每个规则对象的推理函数,直到推理结束获得结论;
[0025]通过知识的整理形成基础的规则逻辑单元;
[0026]针对解析的规则逻辑单元,通过设定的最小元数据支持度和置信度阈值,得到频繁主题项集以及强关联规则;
[0027]利用规则的置信度高低来判断各个主题之间的亲疏远近;
[0028]构建主题业务逻辑规则为业务人员搭建文本描述的业务逻辑与数据库的桥梁,结合可视化交互设计实现规则开发的低代码自动化。
[0029]根据上述技术方案,所述对生成医疗事实库的消息数据解析的步骤,包括:
[0030]解析分类的规则支持自定义配置,配置要素;
[0031]根据以人为维度的医疗事件消息存储模型运行个人引擎计算规则,形成医疗健康事件消息,通过分发机制分发给各级需要数据人员。
[0032]根据上述技术方案,所述基于个人医疗健康事件驱动的应用分发或者数据协同的步骤,包括:
[0033]通过基于规则推理建立完成的规则模型,将医疗健康事件消息内容采用消息推送push方式,终端只需要和推送服务器之间保持一个长连接即可,终端用于推送的socket连接数量就与需要推送服务的应用数量无关,只需要维持一个终端与推送服务器之间的长连接即可,所有应用的服务端都是直接连接推送服务器并通过推送服务器来把消息推送到终
端,而终端也只与推送服务器进行连接即可获得推送的通知消息。
[0034]根据上述技术方案,所述将引擎算法生成的结果数据,推送至目标应用或管理人员的步骤,包括:
[0035]结果数据通过消息推送、接口服务、短信等多种技术形式推送至目标应用系统或业务场景,触发个人健康事件管理或处理业务,针对触发的个人健康事件驱动目标应用系统,通过注册到统一的卫生数据交换平台,实现医疗事件数据的共享交换,医疗事件触发的目标应用系统产生的医疗数据又通过采集平台完成数据采集,并形成新的个人健康事件,将即时归集的数据,通过个人健康数据引擎完成医疗事件的实时、精准触发。
[0036]根据上述技术方案,一种基于区域大数据的健康数据治理系统包括:
[0037]健康数据智能分析模块,用于针对健康数据载入关联、数据治理以及医疗健康规则进行智能设置和分析传输;
[0038]医疗业务模型计算输出模块,用于根据制定的规则对引擎挂载的数据进行实时处理,输出以个人为主体的健康或医疗事件信息,并推送至指定目标系统或管理人员。
[0039]与现有技术相比,本专利技术所达到的有益效果是:本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于区域大数据的健康数据治理方法,其特征在于:所述该方法包括以下步骤:步骤一:将系统中大数据中心每天汇聚的海量数据进行挂载处理;步骤二:对挂载的引擎数据进行智能化治理;步骤三:根据医疗业务需要和业务逻辑制订相应的引擎规则,由事实数据驱动,通过不断地遵循引擎规则分析得出数据结论;步骤四:基于治理后的数据通过配置的规则处置后,生成一系列医疗事实库的消息数据,对这些消息数据解析分类并存储形成以人为维度的医疗健康事件消息;步骤五:基于个人医疗健康事件驱动的应用分发或者数据协同;步骤六:根据目标应用系统或应用场景定义的业务规则,对引擎数据库中的数据进行分析,将引擎算法生成的结果数据,推送至目标应用或管理人员。2.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对海量数据进行挂载处理的步骤,包括:采集系统中实时上传至数据中心的海量数据,通过数据归集任务监测程序,将个人健康引擎所需的数据同步、自动挂载进来。3.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对挂载的引擎数据进行智能化治理的步骤,包括:采用自然语言处理NLP中的实体归一化算法,参照医学术语规范,将病历中症状、体征、疾病、操作以及特征数据如持续时间、阴阳性、疾病的诊断等进行细化提取,并采用字符串编辑距离算法对提取的数据进行标准术语转换处理,实现包括全词匹配、组分对齐、编码版本对齐的功能;将药品归一到药监局国药准字、诊断和手术归一到ICD

10编码上,实现医学术语的对齐,同时使用先检索再重排的归一化策略,并引入细粒度特征做模型融合;将数据转换为HL7、ICD

10的国际标准,软件数据字典遵循国家数据字典、省部委数据字典、地区和用户数据字典规范,将处理的数据存储于分布式引擎数据库中形成结构化的数据。4.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述对挂载的引擎数据进行智能化治理的步骤,还包括:进行医疗实体识别;采用基于BERT的边界增强神经网络分类算法,从文本数据中提取医疗实体,对医疗实体进行数据应用,通过将原始病历处理为以章节为单位、字段命名统一的标准病历形式,对篇章级、段落级、语句级文本进行多尺度拆解,实现关键字段和对应文本的实时抽取,并将抽取的数据存储于分布式引擎数据库中,通过医疗实体识别算法处理,从多条检查所见数据中提取出“斑块、阴影、房颤、血压异常”的阳性症状。5.根据权利要求1所述的一种基于区域大数据的健康数据治理方法,其特征在于:所述根据医疗业务需要和业务逻辑制订相应的引擎规则的步骤,包括:通过可视化界面进行引擎规则的自由定制;采用基于知识的规则...

【专利技术属性】
技术研发人员:杨丽静徐旭
申请(专利权)人:杭州市卫生健康事业发展中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1