当前位置: 首页 > 专利查询>刘欢庆专利>正文

基于RapidMiner的文本数据挖掘方法及系统技术方案

技术编号:29614617 阅读:9 留言:0更新日期:2021-08-10 18:28
本发明专利技术公开了基于RapidMiner的文本数据挖掘方法及系统,包括以下步骤:S1.根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;S2.通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;S3.当将整个文本库遍历完成后,得到第二矩阵;S4.将每个记录中不同字段的值转化为二值属性,得到第三矩阵;S5.根据第三矩阵,进行多种不同维度的挖掘分析。本发明专利技术提出的方法是Rapidminer工具在文本数据挖掘方面的创新使用,该方法只需要整理需要挖掘的文本数据,明确挖掘目标,就可以进行医疗、生活、办公等领域的文本挖掘,简单、高效、实用。

【技术实现步骤摘要】
基于RapidMiner的文本数据挖掘方法及系统
本专利技术涉及数据挖掘领域,尤其涉及基于RapidMiner的文本数据挖掘方法及系统。
技术介绍
在现实世界中,大部分可获得的信息都以文本的形式存储在文本数据库中,文本数据库是由来自各种数据源的大量文档组成的,如新闻文档、研究论文、书籍、数字图书馆、电子邮件和网页等。由于文本信息的电子化形式迅速增长,文本挖掘已成为信息领域的研究热点。文本挖掘是指从大量文本数据中提取未知的、可理解的、最终可用的知识,并利用这些知识更好地组织信息以备将来参考的过程。文本挖掘的主要目的是从原始未处理的文本中提取未知的知识,但文本挖掘也是一项非常困难的工作,因为它必须处理那些已经模糊的、非结构化的文本数据,所以它是一个多学科交叉的领域,涵盖了信息技术、文本分析、模式识别、统计学等学科,数据可视化数据库技术、机器学习和数据挖掘技术。文本挖掘是应用驱动的。医学领域中有大量的文字资料,如病历、处方、医学论文等。现有技术的缺陷和不足:文本挖掘的主要目的是从原始未处理的文本中提取未知的知识,但文本挖掘也是一项非常困难的工作,因为它必须处理那些已经模糊的、非结构化的文本数据,所以它是一个多学科交叉的领域,涵盖了信息技术、文本分析、模式识别、统计学等学科,数据可视化数据库技术、机器学习和数据挖掘技术。对于医学从业者来说,他们需要挖掘数据,至少要精通Java,或者Python等常用编程语言来开发挖掘模型,掌握数据挖掘算法以及必要的高级数据和统计知识,所以难度很大,这也使得医学数据挖掘应用的匮乏。r>
技术实现思路
针对文本挖掘涉及信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习等多项专业技术,且需精通Java、或Python等常用编程语言的要求,而实际医疗工作者主要精力和专业在医学领域,所以医疗数据挖掘显得更加困难,针对上述问题,提出基于RapidMiner的文本数据挖掘方法及系统。本专利技术通过以下技术方案实现:基于RapidMiner的文本数据挖掘方法,包括以下步骤:S1.根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;S2.通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;S3.当将整个文本库遍历完成后,得到第二矩阵;S4.将每个记录中不同字段的值转化为二值属性,得到第三矩阵;S5.根据第三矩阵,进行多种不同维度的挖掘分析。进一步的,所述第三矩阵为只有0和1的文本分析矩阵。进一步的,所述步骤S5具体为,根据第三矩阵,通过RapidMiner附带的相应挖掘分析算法,进行多种不同维度的挖掘分析。进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。进一步根据基于RapidMiner的文本数据挖掘方法,提出基于RapidMiner的文本数据挖掘系统,包括:文本数据提取模块,用于对文本数据进行提取;矩阵建立模块,用于进行矩阵建立;数据分析模块,用于对数据进行分析、遍历、提取、挖掘处理。进一步的,所述矩阵建立模块还包括:第一矩阵单元,用于根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;第二矩阵单元,用于通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;当将整个文本库遍历完成后,得到第二矩阵;第三矩阵单元,用于将每个记录中不同字段的值转化为二值属性,得到第三矩阵。进一步的,所述第三矩阵为只有0和1的文本分析矩阵。进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。本专利技术的有益效果:(1)本专利技术提出的方法是Rapidminer工具在医疗文本数据挖掘方面的创新使用,该方法不需要医疗研究者专门学习计算机领域相关的编程开发语言,也不需要精通艰深的机器学习、文本分析技术,和必要的高等数学方面相关的知识,只需要整理需要挖掘的文本数据,明确挖掘目标,就可以进行医疗、军事等领域的文本挖掘,简单、高效、实用。(2)本专利技术将多种数据挖掘算法包装成模块,不需要使用者专门理解其中详细的算法细节,直接可以拿来使用。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例1提出的方法流程示意图;图2为本专利技术实施例1提出的某医院的文本数据示意图;图3为本专利技术实施例1提出的文本中是否出现某个词的分析文本示意图;图4为本专利技术实施例1提出的每个文本包含的中药的分析文本示意图;图5为本专利技术实施例1提出的中药出现的频次示意图;图6为本专利技术实施例2提出的系统结构示意图;图7为本专利技术实施例3提出的终端设备结构示意图;图8为本专利技术实施例4提出的计算机可读存储介质结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本专利技术作进一步的详细说明,本专利技术的示意性实施方式及其说明仅用于解释本专利技术,并不作为对本专利技术的限定。实施例1如图1,本实施例提出基于RapidMiner的文本数据挖掘方法,包括以下步骤:S1.根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;S2.通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;S3.当将整个文本库遍历完成后,得到第二矩阵;S4.将每个记录中不同字段的值转化为二值属性,得到第三矩阵;S5.根据第三矩阵,进行多种不同维度的挖掘分析。进一步的,所述第三矩阵为只有0和1的文本分析矩阵。进一步的,所述步骤S5具体为,根据第三矩阵,通过RapidMiner附带的相应挖掘分析算法,进行多种不同维度的挖掘分析。进一步的,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。具体的,本实施例针对某医院的医疗数据文本进行挖掘分析,对其文本数据中出现的中药、中药出现的频次进行分析,具体实施方式如下:1.安装文本挖掘插件;2.采集数据集,其中,本实施例对某医院的结核病、中医药等文本数据进行采集,图2示出了某医院的部分中药文本数据,该文本数据可自定义进行增删改操作,将文本数据集加载到RapidMiner中;3.本文档来自技高网...

【技术保护点】
1.基于RapidMiner的文本数据挖掘方法,其特征在于,包括以下步骤:/nS1. 根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;/nS2. 通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;/nS3. 当将整个文本库遍历完成后,得到第二矩阵;/nS4. 将每个记录中不同字段的值转化为二值属性,得到第三矩阵;/nS5. 根据第三矩阵,进行多种不同维度的挖掘分析。/n

【技术特征摘要】
1.基于RapidMiner的文本数据挖掘方法,其特征在于,包括以下步骤:
S1.根据挖掘目标建立一个RapidMiner挖掘流程,并将文本数据和分析目标之间建立矩阵,得到第一矩阵;
S2.通过第一矩阵模型对每一个文本数据进行遍历,统计并分析每个文本数据中的分析目标;
S3.当将整个文本库遍历完成后,得到第二矩阵;
S4.将每个记录中不同字段的值转化为二值属性,得到第三矩阵;
S5.根据第三矩阵,进行多种不同维度的挖掘分析。


2.根据权利要求1所述的基于RapidMiner的文本数据挖掘方法,其特征在于,所述第三矩阵为只有0和1的文本分析矩阵。


3.根据权利要求1所述的基于RapidMiner的文本数据挖掘方法,其特征在于,所述步骤S5具体为,根据第三矩阵,通过RapidMiner附带的相应挖掘分析算法,进行多种不同维度的挖掘分析。


4.根据权利要求1所述的基于RapidMiner的文本数据挖掘方法,其特征在于,所述第二矩阵具体为:第二矩阵中的序列号为每个文本的ID,第二矩阵中的各个属性为每个文本数据的独有属性,所述文本数据不存在的属性表示为空。


...

【专利技术属性】
技术研发人员:刘欢庆董春生李婷婷
申请(专利权)人:刘欢庆
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1