基于中医药知识规模化普及的多源异构大数据融合系统技术方案

技术编号:29254375 阅读:14 留言:0更新日期:2021-07-13 17:25
本发明专利技术公开了一种基于中医药知识规模化普及的多源异构大数据融合系统,包括数据导入模块、数据处理模块和数据融合分析模块;数据导入模块用于把基于中医药知识的多源异构数据导入数据仓库;所述数据处理模块用于把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据;所述数据融合分析模块用于借助数据模型对所述结构化关联数据和所述统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘的结果;其中,所述多源异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。本发明专利技术能够满足中小实体机构对大数据的应用需求,有利于中医药行业知识的规模化普及。

【技术实现步骤摘要】
基于中医药知识规模化普及的多源异构大数据融合系统
本专利技术涉及多源异构数据融合系统,特别涉及一种基于中医药知识规模化普及的多源异构大数据融合系统。
技术介绍
当前,包括中医学校、中医医院、本草药店、药材供应商、合作伙伴和第三方开发者在内的各类实体机构,其每年产生的数据量正呈现指数级增长,信息资源翻倍式激增。企事业决策者们已经意识到了数据是实体机构的核心资产,期望对数据进行存储和挖掘以达到资产保值甚至增值的目的。然而,传统的信息资源管理、整合、应用技术已无法应对大数据时代的挑战。大多数实体机构在面对海量、多源、异构、实时的大数据时,往往缺乏相应的技术能力和经验来进行复杂的大数据处理,以支撑其多元化的应用。为了缓解当下存在的数据的无限性、知识的零散性与用户需求无法满足之间的矛盾,需要让各种数据转换成具有上下文意义的灵活的数据结构,实现数据智能化,以最大限度地提升大数据的价值,进而实现社会智能,因此必须要有新的大数据融合方式。从大数据应用现状的角度看,线下中医学校、中医医院、本草药店、药材供应商、合作伙伴等诸如此类实体中医机构在面对海量、多源、异构的大数据时,缺乏线上支持技术,缺乏相应的技术能力和经验来进行复杂的大数据处理,存在着技术壁垒。线下实体中医机构独立研发线上支持技术的成本也很高,存在着资金壁垒,无法实现其多元化的应用设想。这些线下实体中医机构需要一站式的解决方案包括多源异构大数据支撑平台、网校系统、服务器、视频托管、网页寄存和技术维护等,从而免去大量的时间和资金的投入。此外尚存的困难还有,如何处理中医药先验知识的连续化表示的问题,如何把中医药大量的先验知识转换成普及性的行业知识,让人群极其分散但总量有上亿之多的广大个体用户受益,进而提升全民的健康素养。
技术实现思路
本专利技术要解决的技术问题是:为了克服现有技术中在面对海量、多源、跨界、异构、实时的中医药知识领域的大数据时,缺乏相应的技术能力和经验来进行繁复的处理,因此无法支撑各类中医实体机构对大数据的应用设想、同时亦难以实现中医药行业知识规模化普及的问题,提供一种能够满足中医药领域的多元化应用的需求以及有利于中医药行业知识规模化普及的、基于中医药知识规模化普及的多源异构大数据融合系统。本专利技术是通过下述技术方案解决上述技术问题的:本专利技术提供了一种基于中医药知识规模化普及的多源异构大数据融合系统,包括数据导入模块、数据处理模块和数据融合分析模块;所述数据导入模块用于把基于中医药知识的多源跨界异构数据导入数据仓库;所述数据处理模块用于把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据;所述数据融合分析模块用于借助数据模型对所述结构化关联数据和所述统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘的结果;其中,所述多源跨界异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。较佳地,所述多源异构大数据融合系统还包括可视化展示模块;所述可视化展示模块用于基于行业应用需求对所述结构化关联数据和所述统计分析结果数据进行配置及展现。较佳地,所述非实时数据包括业务数据、过程数据、互联网数据和其他结构化或键值对数据;所述实时数据包括用户行为数据;所述数据导入模块还用于以分布式消息队列的形式由Kafka(一个开源流处理平台)把所述实时数据分发至所述数据仓库;所述数据导入模块还用于使用Sqoop(一款开源的工具)或ETL(一种数据仓库技术)把所述业务数据导入HDFS(分布式文件系统);所述数据导入模块还用于使用爬虫程序爬取所述互联网数据并导入所述数据仓库;所述过程数据包括日志数据和应用数据,所述过程数据为文本数据;所述数据导入模块还用于使用Flume(一种日志收集系统)工具把所述过程数据导入所述数据仓库;所述数据导入模块还用于把所述其他结构化或键值对数据导入Hive(一个数据仓库工具)或HBase(一个分布式的、面向列的开源数据库)。较佳地,所述业务数据包括离线数据,所述离线数据包括中医药先验知识、市区县离线文档和GIS(地理信息系统)时空数据;所述数据导入模块还用于使用硬件复制或文件传输协议的传输方式把所述离线数据导入所述数据仓库。所述数据导入模块还用于使用硬件复制或文件传输协议的传输方式把所述离线数据导入所述数据仓库。较佳地,所述业务数据包括流媒体数据;所述流媒体数据包括视频数据和音频数据;所述数据导入模块还用于使用码流软件开发工具包或者采用多媒体流处理引擎抓取及在线处理所述流媒体数据并导入所述数据仓库。较佳地,所述数据处理模块基于Mahout(开源项目)算法库把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据。较佳地,所述数据处理模块还用于使用MapReduce(一种编程模型)计算引擎对所述非实时数据进行处理;所述数据处理模块还用于使用Spark(专为大规模数据处理而设计的快速通用的计算引擎)并行计算或Storm(一个分布式的、容错的实时计算系统)实时计算框架对所述实时数据进行处理。较佳地,所述数据处理模块还用于使用流媒体计算引擎对所述流媒体数据进行处理。较佳地,所述数据模型包括聚合数据模型、细节数据模型、多维数据模型及业务数据模型;所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述聚合数据模型处理后得到所述数据报表的结果;所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述细节数据模型处理后得到所述即时查询的结果;所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述多维数据模型处理后得到所述数据分析的结果;所述数据融合分析模块还用于对所述结构化关联数据和所述统计分析结果数据经由所述业务数据模型处理后得到所述数据挖掘的结果。较佳地,所述可视化展示模块采用SSH(一个集成框架)框架进行配置及展现。较佳地,支持中医药先验知识的导入和管理。本专利技术的积极进步效果在于:本专利技术提供的基于中医药知识规模化普及的多源异构大数据融合系统,面向多数据源、多业务领域提出了一种开放生态下的跨界大数据融合解决方案,是一种从数据的采集、管理、分析、挖掘到可视化的端到端的服务系统,也是一种解决行业问题的能力。本专利技术提供的多源异构大数据融合系统,能够满足开放性、模块化、灵活性和可扩展性的要求,具备大规模数据采集、数据的结构化、标准化和知识化的能力,能够提高数据的融合性和共享性,提升行业数据和典型业务的融合水平,实现数据资源的分析、分享与保护。本专利技术提供的多源异构大数据融合系统,其上游服务于中医学校、中医医院、本草药店、药材供应商、合作伙伴和第三方开发者等组织级实体用户,其下游服务于人群极其分散但总量有上亿之多的对中医药有兴趣的广大个体用户。【附图说明】图1为本专利技术一本文档来自技高网
...

【技术保护点】
1.一种基于中医药知识规模化普及的多源异构大数据融合系统,其特征在于,包括数据导入模块、数据处理模块和数据融合分析模块;/n所述数据导入模块用于把基于中医药知识的多源跨界异构数据导入数据仓库;/n所述数据处理模块用于把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据;/n所述数据融合分析模块用于借助数据模型对所述结构化关联数据和所述统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘的结果;/n其中,所述多源跨界异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。/n

【技术特征摘要】
1.一种基于中医药知识规模化普及的多源异构大数据融合系统,其特征在于,包括数据导入模块、数据处理模块和数据融合分析模块;
所述数据导入模块用于把基于中医药知识的多源跨界异构数据导入数据仓库;
所述数据处理模块用于把所述数据仓库中的数据转化为结构化关联数据和统计分析结果数据;
所述数据融合分析模块用于借助数据模型对所述结构化关联数据和所述统计分析结果数据进行处理以得到数据报表、即时查询、数据分析及数据挖掘的结果;
其中,所述多源跨界异构数据包括来源于中医中药、网络空间、社交媒体、教育培训、药材营销中至少一个领域的实时数据和非实时数据。


2.如权利要求1所述的基于中医药知识规模化普及的多源异构大数据融合系统,其特征在于,所述多源异构大数据融合系统还包括可视化展示模块;
所述可视化展示模块用于基于行业应用需求对所述结构化关联数据和所述统计分析结果数据进行配置及展现。


3.如权利要求1所述的基于中医药知识规模化普及的多源异构大数据融合系统,其特征在于,所述非实时数据包括业务数据、过程数据、互联网数据和结构化或键值对数据;所述实时数据包括用户行为数据;
所述数据导入模块还用于以分布式消息队列的形式由Kafka把所述实时数据分发至所述数据仓库;
所述数据导入模块还用于使用Sqoop或ETL把所述业务数据导入HDFS;
所述数据导入模块还用于使用爬虫程序爬取所述互联网数据并导入所述数据仓库;
所述过程数据包括日志数据和应用数据,所述过程数据为文本数据;所述数据导入模块还用于使用Flume工具把所述过程数据导入所述数据仓库;
所述数据导入模块还用于把所述结构化或键值对数据导入Hive或HBase。


4.如权利要求3所述的基于中医药知识规模化普及的多源异构大数据融合系统,其特征在于,所述业务数据包括离线数据,所述离线数据包括中医药先验知识、市区县离线文档和GIS时空数据;
所述数据导入模块还用于使用硬件复制或文件传输协议的传输方式把所述离线数据导入所述数据仓库。


5.如权利要求3所述的基于中医药知识规模化普及的多源异构...

【专利技术属性】
技术研发人员:汤浩钧陈雪芳
申请(专利权)人:绍兴亿都信息技术股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1