基于RapidMiner的文本数据挖掘方法及系统技术方案

技术编号：29614617 阅读：9 留言：0更新日期：2021-08-10 18:28

本发明专利技术公开了基于RapidMiner的文本数据挖掘方法及系统，包括以下步骤：S1.根据挖掘目标建立一个RapidMiner挖掘流程，并将文本数据和分析目标之间建立矩阵，得到第一矩阵；S2.通过第一矩阵模型对每一个文本数据进行遍历，统计并分析每个文本数据中的分析目标；S3.当将整个文本库遍历完成后，得到第二矩阵；S4.将每个记录中不同字段的值转化为二值属性，得到第三矩阵；S5.根据第三矩阵，进行多种不同维度的挖掘分析。本发明专利技术提出的方法是Rapidminer工具在文本数据挖掘方面的创新使用，该方法只需要整理需要挖掘的文本数据，明确挖掘目标，就可以进行医疗、生活、办公等领域的文本挖掘，简单、高效、实用。

全部详细技术资料下载

【技术实现步骤摘要】
基于RapidMiner的文本数据挖掘方法及系统
本专利技术涉及数据挖掘领域，尤其涉及基于RapidMiner的文本数据挖掘方法及系统。
技术介绍
在现实世界中，大部分可获得的信息都以文本的形式存储在文本数据库中，文本数据库是由来自各种数据源的大量文档组成的，如新闻文档、研究论文、书籍、数字图书馆、电子邮件和网页等。由于文本信息的电子化形式迅速增长，文本挖掘已成为信息领域的研究热点。文本挖掘是指从大量文本数据中提取未知的、可理解的、最终可用的知识，并利用这些知识更好地组织信息以备将来参考的过程。文本挖掘的主要目的是从原始未处理的文本中提取未知的知识，但文本挖掘也是一项非常困难的工作，因为它必须处理那些已经模糊的、非结构化的文本数据，所以它是一个多学科交叉的领域，涵盖了信息技术、文本分析、模式识别、统计学等学科，数据可视化数据库技术、机器学习和数据挖掘技术。文本挖掘是应用驱动的。医学领域中有大量的文字资料，如病历、处方、医学论文等。现有技术的缺陷和不足：文本挖掘的主要目的是从原始未处理的文本中提取未知的知识，但文本挖掘也是一项非常困难的工作，因为它必须处理那些已经模糊的、非结构化的文本数据，所以它是一个多学科交叉的领域，涵盖了信息技术、文本分析、模式识别、统计学等学科，数据可视化数据库技术、机器学习和数据挖掘技术。对于医学从业者来说，他们需要挖掘数据，至少要精通Java，或者Python等常用编程语言来开发挖掘模型，掌握数据挖掘算法以及必要的高级数据和统计知识，所以难度很大，这也使得医学数据挖掘应用的匮乏。r>
技术实现思路
针对文本挖掘涉及信息技术、文本分析、模式识别、统计学、数据可视化、数据库技术、机器学习等多项专业技术，且需精通Java、或Python等常用编程语言的要求，而实际医疗工作者主要精力和专业在医学领域，所以医疗数据挖掘显得更加困难，针对上述问题，提出基于RapidMiner的文本数据挖掘方法及系统。本专利技术通过以下技术方案实现：基于RapidMiner的文本数据挖掘方法，包括以下步骤：S1.根据挖掘目标建立一个RapidMiner挖掘流程，并将文本数据和分析目标之间建立矩阵，得到第一矩阵；S2.通过第一矩阵模型对每一个文本数据进行遍历，统计并分析每个文本数据中的分析目标；S3.当将整个文本库遍历完成后，得到第二矩阵；S4.将每个记录中不同字段的值转化为二值属性，得到第三矩阵；S5.根据第三矩阵，进行多种不同维度的挖掘分析。进一步的，所述第三矩阵为只有0和1的文本分析矩阵。进一步的，所述步骤S5具体为，根据第三矩阵，通过RapidMiner附带的相应挖掘分析算法，进行多种不同维度的挖掘分析。进一步的，所述第二矩阵具体为：第二矩阵中的序列号为每个文本的ID，第二矩阵中的各个属性为每个文本数据的独有属性，所述文本数据不存在的属性表示为空。进一步根据基于RapidMiner的文本数据挖掘方法，提出基于RapidMiner的文本数据挖掘系统，包括：文本数据提取模块，用于对文本数据进行提取；矩阵建立模块，用于进行矩阵建立；数据分析模块，用于对数据进行分析、遍历、提取、挖掘处理。进一步的，所述矩阵建立模块还包括：第一矩阵单元，用于根据挖掘目标建立一个RapidMiner挖掘流程，并将文本数据和分析目标之间建立矩阵，得到第一矩阵；第二矩阵单元，用于通过第一矩阵模型对每一个文本数据进行遍历，统计并分析每个文本数据中的分析目标；当将整个文本库遍历完成后，得到第二矩阵；第三矩阵单元，用于将每个记录中不同字段的值转化为二值属性，得到第三矩阵。进一步的，所述第三矩阵为只有0和1的文本分析矩阵。进一步的，所述第二矩阵具体为：第二矩阵中的序列号为每个文本的ID，第二矩阵中的各个属性为每个文本数据的独有属性，所述文本数据不存在的属性表示为空。本专利技术的有益效果：（1）本专利技术提出的方法是Rapidminer工具在医疗文本数据挖掘方面的创新使用，该方法不需要医疗研究者专门学习计算机领域相关的编程开发语言，也不需要精通艰深的机器学习、文本分析技术，和必要的高等数学方面相关的知识，只需要整理需要挖掘的文本数据，明确挖掘目标，就可以进行医疗、军事等领域的文本挖掘，简单、高效、实用。（2）本专利技术将多种数据挖掘算法包装成模块，不需要使用者专门理解其中详细的算法细节，直接可以拿来使用。附图说明为了更清楚地说明本专利技术实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简要介绍，显而易见地，下面描述中的附图仅仅是本专利技术的一些实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本专利技术实施例1提出的方法流程示意图；图2为本专利技术实施例1提出的某医院的文本数据示意图；图3为本专利技术实施例1提出的文本中是否出现某个词的分析文本示意图；图4为本专利技术实施例1提出的每个文本包含的中药的分析文本示意图；图5为本专利技术实施例1提出的中药出现的频次示意图；图6为本专利技术实施例2提出的系统结构示意图；图7为本专利技术实施例3提出的终端设备结构示意图；图8为本专利技术实施例4提出的计算机可读存储介质结构示意图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚明白，下面结合实施例和附图，对本专利技术作进一步的详细说明，本专利技术的示意性实施方式及其说明仅用于解释本专利技术，并不作为对本专利技术的限定。实施例1如图1，本实施例提出基于RapidMiner的文本数据挖掘方法，包括以下步骤：S1.根据挖掘目标建立一个RapidMiner挖掘流程，并将文本数据和分析目标之间建立矩阵，得到第一矩阵；S2.通过第一矩阵模型对每一个文本数据进行遍历，统计并分析每个文本数据中的分析目标；S3.当将整个文本库遍历完成后，得到第二矩阵；S4.将每个记录中不同字段的值转化为二值属性，得到第三矩阵；S5.根据第三矩阵，进行多种不同维度的挖掘分析。进一步的，所述第三矩阵为只有0和1的文本分析矩阵。进一步的，所述步骤S5具体为，根据第三矩阵，通过RapidMiner附带的相应挖掘分析算法，进行多种不同维度的挖掘分析。进一步的，所述第二矩阵具体为：第二矩阵中的序列号为每个文本的ID，第二矩阵中的各个属性为每个文本数据的独有属性，所述文本数据不存在的属性表示为空。具体的，本实施例针对某医院的医疗数据文本进行挖掘分析，对其文本数据中出现的中药、中药出现的频次进行分析，具体实施方式如下：1.安装文本挖掘插件；2.采集数据集，其中，本实施例对某医院的结核病、中医药等文本数据进行采集，图2示出了某医院的部分中药文本数据，该文本数据可自定义进行增删改操作，将文本数据集加载到RapidMiner中；3.本文档来自技高网...

【技术保护点】
1.基于RapidMiner的文本数据挖掘方法，其特征在于，包括以下步骤：/nS1. 根据挖掘目标建立一个RapidMiner挖掘流程，并将文本数据和分析目标之间建立矩阵，得到第一矩阵；/nS2. 通过第一矩阵模型对每一个文本数据进行遍历，统计并分析每个文本数据中的分析目标；/nS3. 当将整个文本库遍历完成后，得到第二矩阵；/nS4. 将每个记录中不同字段的值转化为二值属性，得到第三矩阵；/nS5. 根据第三矩阵，进行多种不同维度的挖掘分析。/n

【技术特征摘要】
1.基于RapidMiner的文本数据挖掘方法，其特征在于，包括以下步骤：
S1.根据挖掘目标建立一个RapidMiner挖掘流程，并将文本数据和分析目标之间建立矩阵，得到第一矩阵；
S2.通过第一矩阵模型对每一个文本数据进行遍历，统计并分析每个文本数据中的分析目标；
S3.当将整个文本库遍历完成后，得到第二矩阵；
S4.将每个记录中不同字段的值转化为二值属性，得到第三矩阵；
S5.根据第三矩阵，进行多种不同维度的挖掘分析。

2.根据权利要求1所述的基于RapidMiner的文本数据挖掘方法，其特征在于，所述第三矩阵为只有0和1的文本分析矩阵。

3.根据权利要求1所述的基于RapidMiner的文本数据挖掘方法，其特征在于，所述步骤S5具体为，根据第三矩阵，通过RapidMiner附带的相应挖掘分析算法，进行多种不同维度的挖掘分析。

4.根据权利要求1所述的基于RapidMiner的文本数据挖掘方法，其特征在于，所述第二矩阵具体为：第二矩阵中的序列号为每个文本的ID，第二矩阵中的各个属性为每个文本数据的独有属性，所述文本数据不存在的属性表示为空。

...

【专利技术属性】
技术研发人员：刘欢庆，董春生，李婷婷，
申请(专利权)人：刘欢庆，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人