【技术实现步骤摘要】
一种基于分布式计算的中医古籍大数据挖掘分析系统
[0001]本专利技术属于数据挖掘领域,特别是涉及一种基于分布式计算的中医古籍大数据分析系统。
技术介绍
[0002]中医古籍是我国传统文化的宝贵财富,也是中国医学理论研究与应用的主要参考文献,中医古籍文献中的大量病例,对现代临床医学的发展有重要意义。随着大数据时代的到来,如何利用计算机技术分析、归纳、挖掘中医古籍中记载的诊疗与用药规律已成为现代中医药研究的重要方向之一。数据挖掘技术是从庞大的、缺失的、有噪声的、模糊的、随机的数据中提取隐藏的、潜在有价值的数据的过程。数据挖掘技术的自有特性为中医古籍信息的知识提取带来了新的机遇。在大数据时代,知识变的更加全面,这也使海量中医古籍数据的集成挖掘成为可能。
[0003]数据挖掘在中医古籍中的应用仍存在许多亟待解决的痛点问题,尽管大数据技术不强调结构化以及规范化数据,但古籍文献存在大量的一词多义、多词同义的现象,这对提取有价值的数据信息造成了很大困难。同时由于中医古籍中记载着病、证、方、药的海量知识及其相关关系,利用复杂网络、 ...
【技术保护点】
【技术特征摘要】
1.一种基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,包括:数据输入模块,用于输入古籍数据,提供数据支撑;数据加工模块,与所述数据输入模块连接,用于对所述中医古籍数据进行分段,获得中医古籍的段落数据;数据清洗模块,与所述数据加工模块连接,用于对所述段落数据进行标准化处理,获得标准化数据;数据挖掘分析模块,与所述数据清洗模块连接,用于对所述标准化数据的术语词进行特征提取,统计所述术语词的出现频次;数据处理模块,与所述数据挖掘分析模块连接,用于对所述挖掘分析模块提供可行性支持。2.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,所述清洗模块包含第一清洗单元、第二清洗单元;所述第一清洗单元,用于对所述古籍数据中的标准化词进行加壳操作;所述第二清洗单元,用于通过隐马尔可夫模型的分词算法、专业词表识别数据中的异名词,利用中医专业化词表对所述古籍数据进行标准化,剔除非标准化术语词,获得所述标准化数据。3.根据权利要求1所述的基于分布式计算的中医古籍大数据挖掘分析系统,其特征在于,所述挖掘分析模块包括:关联规则单元,用于通过专业词表及所述古籍数据获得术语词之间的支持度,置信度,提升度指标;点互信息单元,用于通过专业词表及所述古籍数据获得术语词之间的共现频次及点互信息指标;卡方校验单元,用于通过专业词表及所述古籍数据获得术语词之间的卡方值;基于所述支持度、置信度、提升度指标、共现频次及点互信息指标,利用所述卡方值进一步验证术语词之间关系;聚类分析单元,用于通过专业词表及所述古籍数据,依据不同的距离类型、不同的聚类方法进行层次聚类,提供聚类可视化展示;社团...
【专利技术属性】
技术研发人员:李兵,张华敏,张伟娜,刘思鸿,李斌,董燕,侯酉娟,李莎莎,
申请(专利权)人:中国中医科学院中药研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。