非结构化数据分析系统和方法技术方案

技术编号:16605545 阅读:62 留言:0更新日期:2017-11-22 15:21
一种非结构化数据分析系统,包括:非结构化数据分析算法,其驻留在服务器上并可经由浏览器访问,所述非结构化数据分析算法可操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现层、探索层和注释层中向所述一个或更多个用户显示所述总结信息。所述非结构化数据分析算法还可操作用于从一个或更多个远程源接收外部数据。所述呈现层显示下述中的一个或更多个:非结构化数据、非结构化数据的总结、以及总结信息。所述探索层允许一个或更多个用户修改总结信息的粒度,由此修改呈现层的粒度。一个或更多个用户可以经由注释层同时与非结构化数据分析系统进行交互。

Unstructured data analysis system and method

Including an unstructured data analysis system: unstructured data analysis algorithm, which resides on the server and can access through the browser, structured data analysis algorithm can be used for the non receiving unstructured data from one or more remote source to non structured data using one or more analysis the tool, and displays summary information to one or more users; in the presentation layer, layer and layer to explore the annotation of the one or more users to display the summary information. The unstructured data analysis algorithm can also be operable to receive external data from one or more remote sources. The presentation layer displays one or more of the following: unstructured data, summary of unstructured data, and summary information. The exploratory layer allows one or more users to modify the granularity of the summary information, thereby modifying the granularity of the presentation layer. One or more users can interact with unstructured data analysis systems at the annotation level.

【技术实现步骤摘要】
非结构化数据分析系统和方法相关申请的交叉引用本专利申请/专利要求共同未决的在2015年5月11日递交的标题为“UNSTRUCTUREDDATAANALYTICSSYSTEMSANDMETHODSINCLUDINGAVISUALIZATIONINTERFACE”的美国临时专利申请No.62/159,662以及在2015年5月11日递交的标题为“UNSTRUCTUREDDATAANALYTICSSYSTEMSANDMETHODSINCLUDINGNATURALLANGUAGEPROCESSINGANDSTATISTICSFUNCTIONS”的美国临时专利申请No.62/159,683的优先权,通过引用将这二者的全部内容并入本文。
本专利技术一般涉及用于分析大文本语料和非结构化数据的方法和系统。更具体地,本专利技术涉及使用可视化分析和话题建模、可视化界面、以及自然语言处理及统计功能分析大文本语料和非结构化数据的方法和系统。
技术介绍
对文本信息和非结构化数据的大量且日益增长的集合的管理是一个挑战性的问题。知识丰富的文本信息的数据存储库已经变得普及,导致要整理、发掘和分析海量数据。随着文档数量的增加,学习文本语料的含义变得认知成本高昂且耗时。对于自然语言处理(NLP)领域中的研究者,对大文本语料的自动总结这一挑战已经成为主要关注点。为了总结文本语料,研究者已经开发了诸如用于提取并表示词语的上下文使用环境下的含义的隐含语义分析(LSA)之类的技术。LSA产生可以用于文档分类和聚类的概念空间。最近,已经出现了作为用于找到非结构化文本集合中的语义上有意义的话题的有利新技术的概率话题模型。为了进一步提供对文本语料的可视化总结,来自知识发现和可视化社区领域的研究者已经开发了用以基于LSA和概率话题模型(probabilistictopicmodels)二者支持大文本语料的可视化(visualization)和探索(exploration)的工具和技术。尽管概率话题模型已经在解释和语义关联方面证明了它们的优势,但是几乎没有交互可视化系统已经利用这种模型来支持对文本语料的探索和分析。基于范例的可视化和概率隐含语义可视化方法已经在估计文本语料的话题的同时将文档投射到语义二维(2D)图表上。尽管文档簇良好地服从所选标签,但是几乎不存在对文档簇的交互探索和分析的机会。一个例外是基于时间的可视化系统TIARA,其应用河流图(ThemeRiver)隐喻以基于话题内容可视化地总结文本集合。通过TIARA系统的分析,用户能够回答诸如以下问题:文档语料中的主要话题是什么?以及话题是如何随时间演进的?然而,当分析大文本语料时,存在当前文本分析可视化系统难以回答的许多其他现实世界问题。具体地,关于话题和文档之间的关系的问题难以用现有工具解答。这种问题包括:基于文档的话题分布的文档特征是什么?以及什么文档一次包括多个话题(以及这多个话题是什么)?在科学策略的领域中,例如具有多个话题的文档可以指示跨学科的(即,涵盖多于一个知识体)出版物。类似地,在社交媒体分析的上下文中,具有多个话题的文档可以表示与不同的热点话题相关的唯一新闻文章。为了克服与现有的方法和系统相关联的缺点,以及为了帮助用户更有效地理解大文本语料,本专利技术提供新颖的可视化分析系统,其将最新的概率话题模型、隐含狄利克雷分布(LDA)与交互可视化整合。为了描述文档语料,本专利技术的方法和系统首先使用LDA提取一组语义上有意义的话题。与将文档指派给特定簇的大多数传统聚类技术不同,LDA模型考虑每个单独文档的不同话题方面。这准许实现对可包含多个话题的较大文档的高效全面文本分析。为了突出模型的该性质,本专利技术的方法和系统利用并行坐标隐喻来呈现跨话题文档的概率分布。这种呈现允许用户发现单话题与多话题文档,以及每个话题对于关注的文档的相对重要性。此外,由于大多数文本语料本身是有时间性的,本专利技术的系统和方法还示出了随时间的话题演进。此外,本专利技术使包括分析师、营销人员、商业单元领导、信息技术人员和C型雇员在内的公司能够从任何类型的文本数据获得可操作的见解。该技术允许人们根据数据驱动的基础来增强他们的决策过程。该技术摄取文本数据,并通过深度计算和统计算法,识别每个数据集内的主题、话题和出现的问题。用交互的可视化的格式显示结果,使得公司中的任何人能够整体地或精细地分析数据。可以分析所有类型的文本数据-内部数据(例如电子邮件、聊天、调查、呼叫中心和关注小组),或外部数据(例如社会媒体、评论网站、论坛和新闻网站)。该技术可以处理大量语言,确保可以分析来自全世界的反馈环。然而,令人调整分析效果的高度可定制的特征被选择。大多数公司正坐在非结构化文本数据的宝藏上,但是几乎没有能力挖掘非结构化文本数据取得情报。
技术实现思路
再次,在各示例实施例中,本专利技术的方法和系统将交互可视化与最新的概率话题模型紧密整合。具体地,为了解决本文上面提出的问题,本专利技术的方法和系统利用并行坐标(PC)隐喻来呈现跨话题文档的概率分布。该精心挑选的呈现不仅示出了文档与多少话题相关,还示出了每个话题对文档的重要性。此外,本专利技术的方法和系统提供了可以帮助用户基于文档中的话题数自动划分文档集合的一组丰富的交互。除了示出话题和文档之间的关系之外,本专利技术的方法和系统还支持对于理解文档集合必要的其他任务,例如总结文档集合的主要话题,并示出话题随时间如何演进。本专利技术的方法和系统在分析大文本语料时可以有效解决的问题集合包括:捕获文档集合的主要话题是什么?基于文档的话题分布的文档特征是什么?什么文档一次涉及多个话题?以及关注的话题如何随时间演进?为了帮助用户回答这些问题,本专利技术的方法和系统首先使用LDA模型提取一组语义上有意义的话题。为了支持基于话题模型的对文档集合的可视化探索,本专利技术的方法和系统采用多个协调视图来突出文档语料的话题和时间特征二者。本专利技术的方法和系统的一个新颖贡献在于:对文档按话题的概率分布的描绘,并支持对单话题和多话题文档的交互识别和更详细的检查。在一个示例实施例中,本专利技术提供用于文本数据分析的计算机化的方法,包括:在一个或更多个处理器处从一个或更多个存储器接收要分析的文本数据;使用该一个或更多个处理器对文本数据进行格式化以供后续分析;使用该一个或更多个处理器,向文本数据应用概率话题模型以提取出一组语义上有意义的话题,这组语义上有意义的话题共同描述了文本数据的全部或一部分;使用在该一个或更多个处理器上执行的关键词加权模块,生成将话题表示为标签云的话题云视图,其中每个标签云与多个关键词相关联;使用在该一个或更多个处理器上执行的话题排序模块,生成表示文本数据的全部或一部分在多个话题上的分布的文档分布视图;使用在该一个或更多个处理器上执行的文档熵计算模块,生成表示多少话题可归属于本文数据的全部或一部分的文档散点图视图;使用在该一个或更多个处理器上执行的临时话题趋势计算模块,生成表示关于文本数据的全部或一部分而言话题的发生随时间改变的时间视图;以及在对文本数据的全部或一部分的分析中,向用户显示话题云视图、文档分布视图、文档散点图视图和时间视图中的一个或更多个。文本数据包括下述中的一个或更多个:从多个文档导出的文本数据、从多个文件导出的文本数据、从一个或多本文档来自技高网
...
非结构化数据分析系统和方法

【技术保护点】
一种非结构化数据分析系统,包括:驻留在服务器上并能够经由浏览器访问的非结构化数据分析算法,所述非结构化数据分析算法能够操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现层、探索层和注释层中的一个或更多个中向一个或更多个用户显示所述总结信息。

【技术特征摘要】
2016.05.11 US 15/151,5721.一种非结构化数据分析系统,包括:驻留在服务器上并能够经由浏览器访问的非结构化数据分析算法,所述非结构化数据分析算法能够操作用于:从一个或更多个远程源接收非结构化数据,向非结构化数据应用一个或更多个分析工具,以及向一个或更多个用户显示总结信息;其中在呈现层、探索层和注释层中的一个或更多个中向一个或更多个用户显示所述总结信息。2.根据权利要求1所述的系统,其中所述非结构化数据包括下述中的一个或更多个:客户体验数据、电信数据、电子邮件数据、社交媒体数据、以及交易数据。3.根据权利要求1所述的系统,其中所述非结构化数据分析算法还能够操作用于:从一个或更多个远程源接收外部数据。4.根据权利要求3所述的系统,其中所述外部数据包括下述中的一个或更多个:互联网数据、政府数据、以及商业数据。5.根据权利要求1所述的系统,其中向非结构化数据应用的一个或更多个分析工具包括下述中的一个或更多个:统计算法、机器学习、自然语言处理、以及文本挖掘。6.根据权利要求1所述的系统,其中所述呈现层显示下述中的一个或更多个:非结构化数据、非结构化数据的总结、以及所述总结信息。7.根据权利要求1所述的系统,其中所述探索层允许一个或更多个用户修改所述总结信息的粒度,由此修改呈现层的粒度。8.根据权利要求1所述的系统,其中一个或更多个用户能够经由注释层同时与所述非结构化数据分析系统进行交互。9.根据权利要求1所述的系统,其中还在组合层中向一...

【专利技术属性】
技术研发人员:汪晓宇
申请(专利权)人:斯图飞腾公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1