文本挖掘系统及工具技术方案

技术编号:13911070 阅读:100 留言:0更新日期:2016-10-27 03:08
本发明专利技术提供了一种用于从多个输入数据集中提取相关文本的文本挖掘系统。文本挖掘系统包括输入接口模块,该输入接口模块配置成使一个或多个用户能够选择用于多个输入数据集的多个源。文本挖掘系统还包括文本分析模块,该文本分析模块配置成接收多个输入数据集并通过分析多个输入数据集而生成输出数据集。文本分析模块包括数据处理模块,该数据处理模块配置成将多个输入数据集转换成分析文本集。文本分析模块还包括探索性分析模块,该探索性分析模块配置成确定分析文本集中的多个相关性。文本分析模块还包括主题建模模块和报告模块,主题建模模块配置成识别在分析文本集中反复出现的多个主题,报告模块配置成生成用于文本分析模块的多个报告。文本挖掘系统还包括存储电路,该存储电路设置成储存多个输入数据集、分析文本集以及输出数据集。

【技术实现步骤摘要】

本专利技术大体上涉及文本挖掘系统,更具体地,涉及用于从来自多个源的文本中获得相关信息的系统和工具。
技术介绍
文本挖掘,有时另外称为文本数据挖掘或者文本分析,是指从多个源接收的文本中提取相关信息的操作。其中,典型的文本挖掘任务包括文本分类、文本聚类、概念或实体提取、粒度分类生成、情感分析、文档总结以及实体关系模型等等。文本挖掘系统可用于建立特定事件的大型信息档案。数据挖掘可广泛应用于如安全、生物医药、网络媒体、市场情绪分析、学术和软件等各个领域以满足多种多样的研究和商业需求。此外,文本挖掘还可用于某些电子邮件的垃圾邮件过滤器中,作为确定可能为广告或其他无用内容的消息的特征的方法。然而,使用现有的文本挖掘系统要求分析应用的终端用户必须具有足够的技能来完成所有任务,这些任务中有些需要大量的专业知识,因此导致其成本将十分昂贵。此外,文本挖掘所收集的巨量数据大多是半结构化、非结构化和组织不良的,其包括词汇、句法以及语义的歧义。现有的文本挖掘工具使用基于文本的搜索,其只能找到包括用户指定的单词或短语的文档而且需要人工干预来解释信息并使其具有实际价值。因此,期望能够进行自动文本挖掘,由此减少对用户具有本领域特殊专业技能的需求。
技术实现思路
简言之,根据本专利技术的一方面,提供了一种用于从多个输入数据
集提取相关文本的文本挖掘系统。该文本挖掘系统包括输入接口模块,其配置成使一个或多个用户能够选择用于多个输入数据集的多个源。文本挖掘系统还包括文本分析模块,其配置成接收所述多个输入数据集并通过分析多个输入数据集而生成输出数据集。文本分析模块包括数据处理模块,其配置成将多个输入数据集转换成分析文本集。文本分析模块还包括探索性分析模块,其配置成确定分析文本集中的多个相关性。文本分析模块还包括主题建模模块和报告模块,主题建模模块配置成识别在分析文本集中反复出现的多个主题,报告模块配置成生成用于文本分析模块的多个报告。文本挖掘系统还包括存储电路,其配置成储存多个输入数据集、分析文本集以及输出数据集。根据本专利技术的另一方面,提供了用于从多个输入数据集中提取相关文本的文本挖掘工具。文本挖掘工具包括输入接口模块和数据处理接口,输入接口模块配置成使用户能够选择用于多个输入数据集的多个源,数据处理接口配置成使用户能够选择一个或多个变量以触发数据处理任务。该数据处理任务将多个输入数据集转换成分析文本集。数据处理工具还包括探索性分析接口,其配置成使用户能够选择一种或多种分析方式以触发探索性分析任务。探索性分析任务确定分析文本集中的多个相关性。文本挖掘工具还包括主题建模接口,其配置成使用户能够选择一个或多个输入参数以触发主题建模任务。主题建模任务识别在分析文本集中反复出现的多个主题,并且报告接口配置成基于选定的标准生成多个报告。根据本专利技术的又一方面,提供了用于从多个输入数据集中提取相关文本的方法。该方法包括从多个源选择多个输入数据集并转换多个输入数据集以生成分析文本集。该方法还包括通过执行探索性分析确定该分析文本集中存在的相关性并且基于探索性分析的结果生成一个或多个模型。该方法还包括执行主题建模以识别在分析文本集中反复出现的主题、基于选定的标准生成多个报告并生成输出数据集。附图说明当参照附图阅读以下详细说明时,本专利技术的这些和其他特征、方
面以及优点将变得更好理解,所有附图中相同的字符代表相同的部分,其中:图1为根据本技术的各方面实现的文本挖掘系统的框图;图2为根据本技术的各方面实现的使用文本挖掘系统从输入数据集中提取相关文本的一种方法的流程图;图3为根据本技术的各方面实现的示例性文本分析模块的框图;图4为根据本技术的各方面实现的分类分析文本集的方法的流程图;图5为根据本技术的各方面实现的文本挖掘工具的示例性主界面;图6A至图6C为根据本技术的各方面实现的文本挖掘工具的示例性数据处理界面;图7为根据本技术的各方面实现的文本挖掘工具的探索性分析界面的示例;图8A和图8B为根据本技术的各方面实现的文本挖掘工具的示例性报告生成界面;图9为根据本技术的各方面实现的、示出文本挖掘工具的模型定义的示例性文本分类界面;图10为根据本技术的各方面实现的文本挖掘工具的示例性模型构建界面;图11为根据本技术的各方面实现的文本挖掘工具的示例性模型诊断界面;图12为根据本技术的各方面实现的文本挖掘工具的示例性迭代历史查看界面;图13为根据本技术的各方面实现的文本挖掘工具的示例性主题建模界面;图14为根据本技术的各方面实现的文本挖掘工具的示例性主题分布表查看界面;以及图15为根据本技术的各方面实现的布置为从多个输入数据集提取相关文本的通用计算机的框图。具体实施方式本专利技术提供了一种文本挖掘系统,其配置成从输入数据集提取相关文本以实现精确的数据分析。该文本挖掘系统通过将输入文本结构化、导出结构化文本中的模式以及评估和解译结构化文本,来从文本中获取相关信息。在实施方式示例中,文本挖掘技术包括各种任务,如:数据处理、探索性分析、文本分类、主题建模以及报告生成。这些任务可根据需要单独执行且不需要遵循指定的顺序。说明书中提及的“一个实施方式”、“实施方式”、“示例性实施方式”,是表示所描述的实施方式可包括特定的特征、结构或特性,但各个实施方式可以不必包括该特定特征、结构或特性。此外,这种用词不必指向同一实施方式。此外,当结合实施方式描述特定的特征、结构或特性时,无论是否明确描述,将这些特征、结构或特性与其他实施方式相结合均属于本领域技术人员的知识范围内。图1为根据本技术的各方面实现的文本挖掘系统的框图,该系统配置成根据本技术从输入数据集中提取相关文本。文本挖掘系统10通常包括用户接口12、文本分析模块14以及存储电路16。每个部件在下文中进一步详细描述。文本挖掘系统10配置成从多个源24、26和28接收输入数据集18、20、22。输入数据集的示例包括从诸如社交媒体平台、销售和市场渠道、财务报告等的多个源获得的大量的文本、字母数字数据等。就本说明书和权利要求而言,术语“社交媒体平台”可以涉及任何类型的计算机化机制,通过该机制人们可以互相联络或通信。一些社交媒体平台可以是以正式方式便于用户之间端到端通信的应用程序。其他社交网络可以是较不正式的,且可以包括用户的邮件联系人列表、电话簿、邮件列表或可使用户从中发起或接收通信的其他数据库。此外,应注意,术语“用户”可以指自然人以及以“用户”方式运行的其他实体,如公司、组织、企业、团队或者其他人群。用户接口12配置成使用户能够提供用于预定义操作的一组关键词。与关键词相关的输入数据集是从以参考数字24、26、28整体标记
的多个来源获得的。源的示例为诸如Twitter、Facebook等的社交网络、来自各个商业部门的商业报告以及特定股票市场的走势和预测等。文本分析模块14耦接到用户接口12,并且配置成接收根据用户指定的关键词得到的输入数据集18、20、22,并通过精读该输入数据集生成输出数据集。输出数据集30是指从该输入数据集提取的相关文本。文本分析模块14执行与选定的关键词相关的多种操作,如数据处理、探索性分析、文本分类、主题建模以及报告生成,以从输入数据集18、20、22提取相关文本。文本分析模块14还配置成本文档来自技高网
...

【技术保护点】
一种用于从多个输入数据集中提取相关文本的文本挖掘系统,所述系统包括:输入接口模块,配置成使一个或多个用户能够选择用于多个输入数据集的多个数据源;文本分析模块,配置成接收所述多个输入数据集并通过分析所述多个输入数据集而生成输出数据集,所述文本分析模块包括:数据处理模块,配置成将所述多个输入数据集转换成分析文本集;探索性分析模块,配置成确定所述分析文本集中的多个相关性;主题建模模块,配置成识别在所述分析文本集中反复出现的多个主题;以及报告模块,配置成生成用于所述文本分析模块的多个报告;以及存储电路,配置成储存所述多个输入数据集、所述分析文本集以及所述输出数据集。

【技术特征摘要】
2015.04.10 IN 1879/CHE/20151.一种用于从多个输入数据集中提取相关文本的文本挖掘系统,所述系统包括:输入接口模块,配置成使一个或多个用户能够选择用于多个输入数据集的多个数据源;文本分析模块,配置成接收所述多个输入数据集并通过分析所述多个输入数据集而生成输出数据集,所述文本分析模块包括:数据处理模块,配置成将所述多个输入数据集转换成分析文本集;探索性分析模块,配置成确定所述分析文本集中的多个相关性;主题建模模块,配置成识别在所述分析文本集中反复出现的多个主题;以及报告模块,配置成生成用于所述文本分析模块的多个报告;以及存储电路,配置成储存所述多个输入数据集、所述分析文本集以及所述输出数据集。2.根据权利要求1所述的系统,其中所述数据处理模块还配置成通过从所述多个输入数据集中过滤不相关元素来执行预处理任务。3.根据权利要求1所述的系统,其中所述文本分析模块还包括文本分类模块,该文本分类模块配置成基于所述探索性分析模块的结果生成多个模型;其中每个模型提供一个或多个已分类的文本集以获得由用户确定的预定义目标。4.根据权利要求3所述的系统,其中所述文本分类模块还配置成通过以下步骤对所述分析文本集进行分类:通过识别用于样本数据集的多个类别来创建实际分类模块;以及通过在所述分析文本集上应用所识别的类别来创建预测分类模块;其中所述样本数据集是所述分析本文集的子集。5.根据权利要求3所述的系统,其中所述文本分类模块还配置成以迭代方式对所述实际分类模块和所述预测分类模块进行比较。6.根据权利要求1所述的系统,其中所述探索性分析模块配置成对所述分析文本集进行频率分析,以确定在指定范围中频繁出现的一元分词、二元分词以及文本的频率。7.根据权利要求1所述的系统,其中所述探索性分析模块配置成对所述分析文本集进行关系分析,以确定表示所述分析文本集中的单词之间的相关性的关联得分。8.根据权利要求1所述的系统,其中所述探索性分析模块还配置成以条形图、文字标签云、表格或它们的组合的形式生成与频率分析和关系分析相对应的视觉表示。9.根据权利要求1所述的系统,其中所述主题建模模块使用多种机器学习算法来识别在所述分析文...

【专利技术属性】
技术研发人员:高拉夫·翟恩狄平德·迪因格拉祖宾·道拉蒂巴拉特·阿帕德拉斯塔
申请(专利权)人:穆西格马交易方案私人有限公司
类型:发明
国别省市:印度;IN

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1