一种基于分布式计算的中医古籍大数据挖掘分析系统技术方案

技术编号:34346715 阅读:59 留言:0更新日期:2022-07-31 04:56
本发明专利技术公开了一种基于分布式计算的中医古籍大数据挖掘分析系统,包括:数据输入模块、数据加工模块、数据清洗模块、数据挖掘分析模块、数据处理模块。数据输入模块,用于输入中医古籍数据;数据加工模块,用于对中医古籍数据进行分段,获得中医古籍的段落数据;数据清洗模块,用于对段落数据进行标准化处理,获得标准化数据;数据挖掘分析模块,用于对标准化数据的术语词进行特征提取,统计术语词的出现频次;数据处理模块,用于对挖掘分析模块提供可行性支持。该系统在传统古籍数据挖掘的基础上集成了Storm分布式平台,同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。性以及数据量大时算法运行时间长的问题。性以及数据量大时算法运行时间长的问题。

A big data mining and analysis system of traditional Chinese medicine ancient books based on Distributed Computing

【技术实现步骤摘要】
一种基于分布式计算的中医古籍大数据挖掘分析系统


[0001]本专利技术属于数据挖掘领域,特别是涉及一种基于分布式计算的中医古籍大数据分析系统。

技术介绍

[0002]中医古籍是我国传统文化的宝贵财富,也是中国医学理论研究与应用的主要参考文献,中医古籍文献中的大量病例,对现代临床医学的发展有重要意义。随着大数据时代的到来,如何利用计算机技术分析、归纳、挖掘中医古籍中记载的诊疗与用药规律已成为现代中医药研究的重要方向之一。数据挖掘技术是从庞大的、缺失的、有噪声的、模糊的、随机的数据中提取隐藏的、潜在有价值的数据的过程。数据挖掘技术的自有特性为中医古籍信息的知识提取带来了新的机遇。在大数据时代,知识变的更加全面,这也使海量中医古籍数据的集成挖掘成为可能。
[0003]数据挖掘在中医古籍中的应用仍存在许多亟待解决的痛点问题,尽管大数据技术不强调结构化以及规范化数据,但古籍文献存在大量的一词多义、多词同义的现象,这对提取有价值的数据信息造成了很大困难。同时由于中医古籍中记载着病、证、方、药的海量知识及其相关关系,利用复杂网络、聚类分析等对其进行数据挖掘分析需要较多的时间和计算资源,如何针对中医古籍的知识挖掘特点,设计高效的数据挖掘计算模型与技术是中医古籍大数据知识发现的关键。

技术实现思路

[0004]本专利技术的目的是提供一种基于分布式计算的中医古籍大数据分析系统,以解决上述现有技术存在的问题。该系统在传统古籍数据挖掘的基础上集成了Storm分布式平台,同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。
[0005]为实现上述目的,本专利技术提供了一种基于分布式计算的中医古籍大数据分析系统,包括:
[0006]数据输入模块,用于输入古籍数据,提供数据支撑;
[0007]数据加工模块,与所述数据输入模块连接,用于对所述中医古籍数据进行分段,获得中医古籍的段落数据;
[0008]数据清洗模块,与所述数据加工模块连接,用于对所述段落数据进行标准化处理,获得标准化数据;
[0009]数据挖掘分析模块,与所述数据清洗模块连接,用于对所述标准化数据的术语词进行特征提取,统计所述术语词的出现频次;
[0010]数据处理模块,与所述数据挖掘分析模块连接,用于对所述数据挖掘分析模块提供可行性支持。
[0011]优选地,所述清洗模块包含第一清洗单元、第二清洗单元;所述第一清洗单元,用
于对所述古籍数据中的标准化词进行加壳操作;所述第二清洗单元,用于通过隐马尔可夫模型的分词算法、专业词表识别数据中的异名词,利用中医专业化词表对所述古籍数据进行标准化,剔除非标准化术语词,获得所述标准化数据。
[0012]优选地,挖掘分析模块包括:
[0013]关联规则单元,用于通过专业词表及所述古籍数据获得术语词之间的支持度,置信度,提升度指标;
[0014]点互信息单元,用于通过专业词表及所述古籍数据获得术语词之间的共现频次及点互信息指标;
[0015]卡方校验单元,用于通过专业词表及所述古籍数据获得术语词之间的卡方值;基于所述支持度、置信度、提升度指标、共现频次及点互信息指标,利用所述卡方值进一步验证术语词之间关系;
[0016]聚类分析单元,用于通过专业词表及所述古籍数据,依据不同的距离类型、不同的聚类方法进行层次聚类,提供聚类可视化展示;
[0017]社团分析单元,用于通过专业词表及所述古籍数据,利用贪心优化模块度社团分析算法,对术语词进行社团划分,并提供可视化展示;
[0018]复杂网络单元,用于通过专业词表及所述古籍数据,利用术语词共现频次构建复杂网络,通过节点间权重进行可视化展示。
[0019]优选地,所述聚类分析单元包括尺度维度单元,所述尺度维度单元包括距离类型,聚类方法;
[0020]所述距离类型包括:欧式距离,切比雪夫距离,绝对值距离;
[0021]所述聚类方法包括:最大距离,最小距离,平均距离。
[0022]优选地,所述聚类分析单元还包括层次聚类展示单元,所述层次聚类展示单元包括横向层次聚类图、纵向层次聚类图。
[0023]优选地,所述处理模块包括Storm流式数据处理单元、存储单元、获取单元、分布式计算单元;
[0024]所述Storm流式数据处理单元,用于接收分布式信息流平台发送的实时请求,通过查询相关的段落数据并抽取出现术语词的特征,获得目标词表的特征;
[0025]所述存储单元,用于根据所述目标词表的特征,利用时间换空间的方法,将中间计算结果中冗余的数据存储到数据结构服务器中;
[0026]所述获取单元,用于选取合适的并行度、合适的进程数;
[0027]所述分布式计算单元,用于通过分布式计算,将所述古籍数据发送给Bolt消费者进行并行计算,获得分析成功的数据。
[0028]优选地,所述Storm流式数据处理单元采用定时存储方式对临时结果进行存取。
[0029]本专利技术的技术效果为:
[0030]本专利技术引入了清洗模块,对数据进行规范化处理,同时基于专业词表分析古籍数据,剔除了一部分无效古籍数据,能够更精准地找到具有价值的古籍数据,这也是数据挖掘技术知识发现的关键。
[0031]本专利技术还在传统古籍数据挖掘的基础上集成了Storm分布式平台,为实时性的数据挖掘模块提供可行性支持,实现与本地挖掘系统的毫秒级延迟;利用分布式计算多进程
多线程的特点占用较少的空间资源缓解挖掘计算过程中的计算压力,加快系统响应速度。同时融入了各算法可视化模块,通过专业化词表解决了古籍挖掘盲目性以及数据量大时算法运行时间长的问题。
附图说明
[0032]构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0033]图1为本专利技术实施例中的系统流程图;
[0034]图2为本专利技术实施例中的Storm平台的架构图。
具体实施方式
[0035]需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。
[0036]实施例一
[0037]如图1

2所示,本实施例中提供一种基于分布式计算的中医古籍大数据分析系统,包括:数据输入模块、数据加工模块、数据清洗模块、数据挖掘分析模块、数据处理模块。
[0038]数据输入模块,用于输入中医古籍数据,古籍数据输入是执行数据挖掘的数据基础,该模块支持txt、excel数据。
[0039]导入系统后的数据可通过数据加工模块对古籍数据进行分段,将古籍数据转换为结构化数据,初步减少数据噪声对分析结果的影响,系统中认为同一段落出现的术语词具有高度相关的特点,如共现中药数据极可能是属于配伍规律中的一种。同时数据加工模块支持用户手动对非标准数据进行纠正。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,包括:数据输入模块,用于输入古籍数据,提供数据支撑;数据加工模块,与所述数据输入模块连接,用于对所述中医古籍数据进行分段,获得中医古籍的段落数据;数据清洗模块,与所述数据加工模块连接,用于对所述段落数据进行标准化处理,获得标准化数据;数据挖掘分析模块,与所述数据清洗模块连接,用于对所述标准化数据的术语词进行特征提取,统计所述术语词的出现频次;数据处理模块,与所述数据挖掘分析模块连接,用于对所述挖掘分析模块提供可行性支持。2.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,所述清洗模块包含第一清洗单元、第二清洗单元;所述第一清洗单元,用于对所述古籍数据中的标准化词进行加壳操作;所述第二清洗单元,用于通过隐马尔可夫模型的分词算法、专业词表识别数据中的异名词,利用中医专业化词表对所述古籍数据进行标准化,剔除非标准化术语词,获得所述标准化数据。3.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,所述挖掘分析模块包括:关联规则单元,用于通过专业词表及所述古籍数据获得术语词之间的支持度,置信度,提升度指标;点互信息单元,用于通过专业词表及所述古籍数据获得术语词之间的共现频次及点互信息指标;卡方校验单元,用于通过专业词表及所述古籍数据获得术语词之间的卡方值;基于所述支持度、置信度、提升度指标、共现频次及点互信息指标,利用所述卡方值进一步验证术语词之间关系;聚类分析单元,用于通过专业词表及所述古籍数据,依据不同的距离类型、不同的聚类方法进行层次聚类,提供聚类可视化展示;社团...

【专利技术属性】
技术研发人员:李兵张华敏张伟娜刘思鸿李斌董燕侯酉娟李莎莎
申请(专利权)人:中国中医科学院中药研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1