文本挖掘系统及工具技术方案

技术编号：13911070 阅读：100 留言：0更新日期：2016-10-27 03:08

本发明专利技术提供了一种用于从多个输入数据集中提取相关文本的文本挖掘系统。文本挖掘系统包括输入接口模块，该输入接口模块配置成使一个或多个用户能够选择用于多个输入数据集的多个源。文本挖掘系统还包括文本分析模块，该文本分析模块配置成接收多个输入数据集并通过分析多个输入数据集而生成输出数据集。文本分析模块包括数据处理模块，该数据处理模块配置成将多个输入数据集转换成分析文本集。文本分析模块还包括探索性分析模块，该探索性分析模块配置成确定分析文本集中的多个相关性。文本分析模块还包括主题建模模块和报告模块，主题建模模块配置成识别在分析文本集中反复出现的多个主题，报告模块配置成生成用于文本分析模块的多个报告。文本挖掘系统还包括存储电路，该存储电路设置成储存多个输入数据集、分析文本集以及输出数据集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术大体上涉及文本挖掘系统，更具体地，涉及用于从来自多个源的文本中获得相关信息的系统和工具。
技术介绍
文本挖掘，有时另外称为文本数据挖掘或者文本分析，是指从多个源接收的文本中提取相关信息的操作。其中，典型的文本挖掘任务包括文本分类、文本聚类、概念或实体提取、粒度分类生成、情感分析、文档总结以及实体关系模型等等。文本挖掘系统可用于建立特定事件的大型信息档案。数据挖掘可广泛应用于如安全、生物医药、网络媒体、市场情绪分析、学术和软件等各个领域以满足多种多样的研究和商业需求。此外，文本挖掘还可用于某些电子邮件的垃圾邮件过滤器中，作为确定可能为广告或其他无用内容的消息的特征的方法。然而，使用现有的文本挖掘系统要求分析应用的终端用户必须具有足够的技能来完成所有任务，这些任务中有些需要大量的专业知识，因此导致其成本将十分昂贵。此外，文本挖掘所收集的巨量数据大多是半结构化、非结构化和组织不良的，其包括词汇、句法以及语义的歧义。现有的文本挖掘工具使用基于文本的搜索，其只能找到包括用户指定的单词或短语的文档而且需要人工干预来解释信息并使其具有实际价值。因此，期望能够进行自动文本挖掘，由此减少对用户具有本领域特殊专业技能的需求。
技术实现思路
简言之，根据本专利技术的一方面，提供了一种用于从多个输入数据
集提取相关文本的文本挖掘系统。该文本挖掘系统包括输入接口模块，其配置成使一个或多个用户能够选择用于多个输入数据集的多个源。文本挖掘系统还包括文本分析模块，其配置成接收所述多个输入数据集并通过分析多个输入数据集而生成输出数据集。文本分析模块包括数据处理模块，...

【技术保护点】
一种用于从多个输入数据集中提取相关文本的文本挖掘系统，所述系统包括：输入接口模块，配置成使一个或多个用户能够选择用于多个输入数据集的多个数据源；文本分析模块，配置成接收所述多个输入数据集并通过分析所述多个输入数据集而生成输出数据集，所述文本分析模块包括:数据处理模块，配置成将所述多个输入数据集转换成分析文本集；探索性分析模块，配置成确定所述分析文本集中的多个相关性；主题建模模块，配置成识别在所述分析文本集中反复出现的多个主题；以及报告模块，配置成生成用于所述文本分析模块的多个报告；以及存储电路，配置成储存所述多个输入数据集、所述分析文本集以及所述输出数据集。

【技术特征摘要】
2015.04.10 IN 1879/CHE/20151.一种用于从多个输入数据集中提取相关文本的文本挖掘系统，所述系统包括：输入接口模块，配置成使一个或多个用户能够选择用于多个输入数据集的多个数据源；文本分析模块，配置成接收所述多个输入数据集并通过分析所述多个输入数据集而生成输出数据集，所述文本分析模块包括:数据处理模块，配置成将所述多个输入数据集转换成分析文本集；探索性分析模块，配置成确定所述分析文本集中的多个相关性；主题建模模块，配置成识别在所述分析文本集中反复出现的多个主题；以及报告模块，配置成生成用于所述文本分析模块的多个报告；以及存储电路，配置成储存所述多个输入数据集、所述分析文本集以及所述输出数据集。2.根据权利要求1所述的系统，其中所述数据处理模块还配置成通过从所述多个输入数据集中过滤不相关元素来执行预处理任务。3.根据权利要求1所述的系统，其中所述文本分析模块还包括文本分类模块，该文本分类模块配置成基于所述探索性分析模块的结果生成多个模型；其中每个模型提供一个或多个已分类的文本集以获得由用户确定的预定义目标。4.根据权利要求3所述的系统，其中所述文本分类模块还配置成通过以下步骤对所述分析文本集进行分类：通过识别用于样本数据集的多个类别来创建实际分类模块；以及通过在所述分析文本集上应用所识别的类别来创建预测分类模块；其中所述样本数据集是所述分析本文集的子集。5.根据权利要求3所述的系统，其中所述文本分类模块还配置成以迭代方式对所述实际分类模块和所述预测分类模块进行比较。6.根据权利要求1所述的系统，其中所述探索性分析模块配置成对所述分析文本集进行频率分析，以确定在指定范围中频繁出现的一元分词、二元分词以及文本的频率。7.根据权利要求1所述的系统，其中所述探索性分析模块配置成对所述分析文本集进行关系分析，以确定表示所述分析文本集中的单词之间的相关性的关联得分。8.根据权利要求1所述的系统，其中所述探索性分析模块还配置成以条形图、文字标签云、表格或它们的组合的形式生成与频率分析和关系分析相对应的视觉表示。9.根据权利要求1所述的系统，其中所述主题建模模块使用多种机器学习算法来识别在所述分析文...

【专利技术属性】
技术研发人员：高拉夫·翟恩，狄平德·迪因格拉，祖宾·道拉蒂，巴拉特·阿帕德拉斯塔，
申请(专利权)人：穆西格马交易方案私人有限公司，
类型：发明
国别省市：印度;IN

全部详细技术资料下载我是这个专利的主人