System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 大数据提取、转换、融合系统技术方案_技高网

大数据提取、转换、融合系统技术方案

技术编号:40845797 阅读:4 留言:0更新日期:2024-04-01 15:14
本发明专利技术公开了一种大数据提取、转换、融合系统,能够采集来自不同源头的多种类型的数据,实现对多源异构数据的统一处理,减少针对不同类型数据分别处理的时间和成本,更全面、更完整的病人信息和治疗记录。通过对异构数据进行标准化和统一化处理;通过机器学习和自然语言处理技术自动、高效地识别和分类医疗多源异构数据,提高数据理解能力、数据处理效率,有助于医生做出更准确的诊断和治疗方案,为医疗行业的发展提供更好的支持。

【技术实现步骤摘要】

本专利技术涉及大数据,尤其是涉及大数据提取、转换、融合系统


技术介绍

1、随着医疗行业的快速发展和信息技术的不断进步,医疗领域产生了大量多源异构数据。这些多源异构数据的来源也日益多样化,包括医院信息系统、医疗设备、移动设备、患者自我监测设备等。同时,这些多源异构数据的数据格式、类型和粒度也各不相同。如数据类型包括电子病历、医疗影像、病理报告、医学文献等。由于这些数据具有来源广泛、类型多样、格式各异、结构复杂,缺乏统一的数据标准等特点,其给医疗数据的识别、分类和处理带来了巨大的挑战。

2、在现有的技术中,针对来自某个单一数据源(如医院信息系统、实验室信息系统、医学影像系统等)的医疗数据的处理方法已经比较成熟。但是这些方法无法很好地满足多源异构数据处理的挑战。例如,医院信息系统通常只涵盖患者的病历信息、医嘱信息等结构化数据,而无法处理医疗影像、病理切片等非结构化数据。这就导致医疗机构不得不采取多种不同的数据处理系统分别处理来自不同数据源的数据,增加了医疗机构数据处理的成本和难度。同时由于缺乏统一的数据治理标准和工具,医院管理者在数据治理方面效率低下,无法有效地管理和利用医疗数据。

3、另外,现有技术在处理医疗数据时还存在以下问题:

4、第一,对医疗数据的理解能力有限,还主要在关注数据的汇总和统计,忽略了数据中隐藏的信息和模式,难以提取出与医疗相关的关键信息,无法为临床决策、疾病预防和治疗等方面提供更有效的支持。例如,现有技术难以准确地对医疗文本数据中的疾病名称、症状描述等信息进行识别和分类等。</p>

5、第二,现有数据处理工具通常只提供简单的数据展示功能,缺乏可视化交互性。可视化交互性不强导致用户无法通过界面进行交互操作,如调整分类模型参数、查看分类详细信息等,使得数据处理过程缺乏灵活性和可定制性。

6、第三,医疗数据涉及到患者的隐私信息,现有技术往往缺乏有效的隐私保护措施,难以确保医疗数据的保密性和安全性。

7、第四,现有技术多为集中式部署,在处理大规模医疗数据时,受限于计算和存储资源,难以处理大规模的医疗多源异构数据,数据处理效率和处理能力较低,成本投入较大。


技术实现思路

1、本专利技术目的在于提供一种大数据提取、转换、融合系统,以解决医疗领域内,包含临床诊断、门诊病例、图像数据、视频数据、影像数据等多源异构数据无法融合分析的问题。

2、为实现上述目的,本专利技术采取下述技术方案:

3、本专利技术所述的一种大数据提取、转换、融合系统,包括数据源管理模块、数据抓取模块、数据预处理模块、数据转换模块、数据融合模块;

4、所述数据源管理模块用于管理医疗系统中各种数据源,包括数据源的注册、注销、配置;

5、所述数据抓取模块用于将所述数据源的各种数据类型的数据抓取到数据仓库;

6、所述数据预处理模块按照统一数据格式对数据仓库中的数据进行格式标准化;

7、所述数据转换模块用于建立数据之间、数据与医学诊断标准之间、数据与医学诊断结论之间的关联映射关系,实现数据与数据、数据与医学诊断标准、数据与医学诊断结论之间相互转换;

8、所述数据融合模块采用特征提取技术提取数据特征后,按照数据类型或数据特征划分为若干个子数据空间。

9、进一步地,所述数据源包括医院管理信息系统、电子病历信息系统、护理信息系统、检验信息系统、医学影像系统。

10、进一步地,所述数据抓取模块具体包括实时采集单元和增量式映射管理单元;

11、所述实时采集单元将所述数据源上的实时数据、历史数据采集、过滤后进行备份存储;

12、所述采集策略包括定时采集、事件触发采集、批量采集、增量采集;

13、采集结构化数据采用etl工具或数据迁移代码按照数据协议抽取;

14、采集非结构化数据采用与所述非结构化数据对应的结构化数据建立映射完成数据抓取;

15、所述增量式映射管理单元对采集数据进行实时整合;

16、所述整合包括采用json-ld消除所述数据源间数据的语义异构,采用json schema消除数据源间数据的类型异构。

17、进一步地,所述数据预处理包括建立统一的术语字典及值域映射表;基于术语字典及值域映射表配置数据清洗规则,进行无效信息过滤和数据清洗。

18、进一步地,所述特征提取技术包括基于图像处理技术的特征提取方法、基于深度学习技术的特征提取方法。

19、进一步地,所述数据仓库支持关系型数据库和文件系统的存储方式。

20、进一步地,所述子数据空间用于大数据模型进行统计分析、数据挖掘和建模。

21、进一步地,还包括对所述统计分析、数据挖掘和建模结果通过图形、图表可视化呈现。

22、进一步地,还包括使用对称加密算法或非对称加密算法对采集的数据进行加密、去标识化隐藏敏感信息;建立用户身份认证、权限控制机制保证数据安全。

23、本专利技术的优点在于能够采集来自不同源头的多种类型的数据,实现对多源异构数据的统一处理,减少了针对不同类型数据分别处理的时间和成本,能够提供更全面、更完整的病人信息和治疗记录,有助于医生做出更准确的诊断和治疗方案。

24、本专利技术对异构数据进行标准化和统一化处理,通过机器学习和自然语言处理技术自动、高效地识别和分类医疗多源异构数据,提高了数据理解能力,提高了数据处理效率,并能更好地利用数据,提高数据利用效率,为医疗行业的发展提供更好的支持。

25、本专利技术还通过可视化展示技术,提供了更为直观的数据展示方式,方便用户对分类结果进行查看和交互操作,增强了可视化交互性;采用了严格的隐私保护措施,确保医疗数据的保密性和安全性,解决了隐私保护不足的问题;通过分布式计算和存储技术,能够高效地处理大规模的医疗多源异构数据,解决了处理大规模数据的局限性问题。

本文档来自技高网...

【技术保护点】

1.一种大数据提取、转换、融合系统,其特征在于,包括数据源管理模块、数据抓取模块、数据预处理模块、数据转换模块、数据融合模块;

2.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据源包括医院管理信息系统、电子病历信息系统、护理信息系统、检验信息系统、医学影像系统。

3.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据抓取模块具体包括实时采集单元和增量式映射管理单元;

4.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据预处理包括建立统一的术语字典及值域映射表;基于术语字典及值域映射表配置数据清洗规则,进行无效信息过滤和数据清洗。

5.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述特征提取技术包括基于图像处理技术的特征提取方法、基于深度学习技术的特征提取方法。

6.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据仓库支持关系型数据库和文件系统的存储方式。

7.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述子数据空间用于大数据模型进行统计分析、数据挖掘和建模。

8.根据权利要求7所述的一种大数据提取、转换、融合系统,其特征在于:还包括对所述统计分析、数据挖掘和建模结果通过图形、图表可视化呈现。

9.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:还包括使用对称加密算法或非对称加密算法对采集的数据进行加密、去标识化隐藏敏感信息;建立用户身份认证、权限控制机制保证数据安全。

...

【技术特征摘要】

1.一种大数据提取、转换、融合系统,其特征在于,包括数据源管理模块、数据抓取模块、数据预处理模块、数据转换模块、数据融合模块;

2.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据源包括医院管理信息系统、电子病历信息系统、护理信息系统、检验信息系统、医学影像系统。

3.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据抓取模块具体包括实时采集单元和增量式映射管理单元;

4.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征在于:所述数据预处理包括建立统一的术语字典及值域映射表;基于术语字典及值域映射表配置数据清洗规则,进行无效信息过滤和数据清洗。

5.根据权利要求1所述的一种大数据提取、转换、融合系统,其特征...

【专利技术属性】
技术研发人员:冯九龙陶咏志冯霄鹏杨海涛夏伟杰章峰王盛开陈詠辉冯荟璇常睿生胡春波刘宏章于艳芳
申请(专利权)人:北京电信规划设计院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1