用自然语言对话支持交互式文本挖掘处理制造技术

技术编号:22225732 阅读:55 留言:0更新日期:2019-09-30 06:16
在包括至少一个处理器和至少一个存储器的数据处理系统中提供了一种机制,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备。接受模块接受自然语言句子。提取模块从自然语言句子中提取第一方面。统计分析模块对一组文档执行关于第一方面的第一统计分析,并且响应于从自然语言句子提取的信息,基于第一统计分析的结果确定第一方面的值,该信息要求进行第二统计分析。统计分析模块使用第一方面的值执行该组文档的第二统计分析。用户界面呈现基于第二统计分析的结果确定的第二方面。

Supporting Interactive Text Mining with Natural Language Dialogue

【技术实现步骤摘要】
【国外来华专利技术】用自然语言对话支持交互式文本挖掘处理
本申请一般涉及改进的数据处理设备和方法,并且更具体地涉及用于关于方面(facet)的文档的统计分析机制。
技术介绍
文本挖掘是用于从文档的大量非结构化文本数据获取知识而不必阅读文档的整个内容的技术。文本挖掘系统可以分析非结构化文本数据,并提取方面,方面是表示文档特征的单词或短语集。此外,文本挖掘系统可以利用查询缩小文档(例如,自然语言句子搜索中的查询,方面搜索中的查询),并且对关于方面的当前文档(缩小的文档)执行各种统计分析。为了获得文本挖掘的重要结果,一个分析过程是不充分的并且需要执行两个分析过程。这两个分析过程可以包括将文档缩小为感兴趣(interesting)文档并识别特定于感兴趣文档的单词的第一分析过程,以及识别单词出现原因的第二分析过程。然而,由于通常假设仅执行第一分析过程,因此出现用户不太可能获得文本挖掘的显著结果的问题。因此,本领域需要解决上述问题。
技术实现思路
从第一方面来看,本专利技术提供了一种方法,在包括至少一个处理器和至少一个存储器的数据处理系统中,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使得所述至少一个处理器,用于实现文档分析设备,用于对关于方面的文档进行统计分析,该方法包括:由在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;统计分析模块利用第一方面的值对该组文档进行第二统计分析;并且,由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。从另一方面来看,本专利技术提供了一种用于对关于方面执行文档的统计分析的装置,该装置包括:处理器;和耦合到处理器的存储器,其中存储器包括指令,该指令当由处理器执行时,使得处理器实现文档分析设备,用于执行关于方面的文档的统计分析,其中该指令使处理器:通过在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块,执行关于第一方面的一组文档的第一统计分析;通过统计分析模块,基于响应于从自然语言句子中提取的信息的第一统计分析的结果,确定第一方面的值,该信息请求第二统计分析;统计分析模块利用第一方面的值对该组文档进行第二次统计分析;并且,由处理器执行的用户界面,呈现基于第二统计分析的结果确定的第二方面。从另一方面来看,本专利技术提供了一种用于对关于方面执行文档的统计分析的计算机程序产品,该计算机程序产品包括可由处理电路读取并存储用于执行的指令的计算机可读存储介质。通过处理电路执行用于执行本专利技术的步骤的方法。从另一方面来看,本专利技术提供了一种存储在计算机可读介质上并可加载到数字计算机的内部存储器中的计算机程序,包括当所述程序在计算机上运行时用于执行本专利技术的步骤的软件代码部分。在一个说明性实施例中,提供了一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现文档分析设备,用于对关于方面的文档执行统计分析。该方法包括由在文档分析设备内执行的接受模块接受自然语言句子。该方法还包括由在文档分析设备内执行的提取模块从自然语言句子中提取第一方面。该方法还包括由在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析。该方法还包括由统计分析模块基于响应于从自然语言句子提取的信息的第一统计分析的结果,确定第一方面的值,该信息请求第二统计分析。该方法还包括由统计分析模块使用第一方面的值执行该组文档的第二统计分析。该方法还包括由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。在其他说明性实施例中,提供了一种计算机程序产品,包括具有计算机可读程序的计算机可用或可读介质。当在计算设备上执行时,计算机可读程序使计算设备执行以上关于方法说明性实施例概述的操作中的各种和组合。在又一个说明性实施例中,提供了一种系统/装置。该系统/装置可以包括一个或多个处理器和耦合到一个或多个处理器的存储器。存储器可以包括指令,当由一个或多个处理器执行时,使得一个或多个处理器执行以上关于方法说明性实施例概述的操作中的各种操作和组合。鉴于以下对本专利技术的示例实施例的详细描述,本专利技术的这些和其他特征和优点将对本领域普通技术人员变得明显。附图说明当结合附图阅读时,通过参考说明性实施例的以下详细描述,将最好地理解本专利技术以及优选的使用模式及其进一步的目的和优点,其中:图1描绘了根据现有技术的实际分析过程的示例,并且其中可以实现本专利技术的优选实施例;图2描绘了根据说明性实施例的文档分析系统的框图;图3描绘了根据说明性实施例的输入屏幕的示例;图4描绘了根据说明性实施例的挖掘(mining)图形屏幕的示例;图5描绘了根据说明性实施例的当自然语言句子中包括自动分析指定时显示的挖掘图形屏幕的示例;图6描绘了根据说明性实施例的除了挖掘图形屏幕之外还显示的方面屏幕的示例;图7描绘了根据说明性实施例在紧接在调用细节分析屏幕之前显示的挖掘图形屏幕的示例;图8描绘了根据说明性实施例的细节分析屏幕的示例;图9A和图9B描绘了表示根据说明性实施例的文档分析的操作的示例的流程图;图10描绘了根据现有技术的示例分布式数据处理系统的图形表示,并且其中可以实现本专利技术的优选实施例;和图11是根据现有技术的仅一个示例数据处理系统的框图,并且其中可以实现本专利技术的优选实施例。具体实施方式说明性实施例提供了一种系统和用户界面,以支持具有自然语言对话的交互式文本挖掘过程。系统识别用户的分析并执行自动分析和帮助。可以用自然语言句子描述用户希望执行的分析。系统理解自然语言句子的分析步骤并协助分析。更具体地,系统自动执行分析步骤,同时通过与用户的交互适当地存储所需信息并显示分析屏幕。用户界面允许分析情况,单词之间的关系,和使用分析输入屏幕以直观地理解的分析内容,用于显示自然语言句子输入和自然语言句子样本,以及用于实际挖掘的挖掘屏幕。挖掘屏幕由用于可视化交互式挖掘过程的挖掘图形屏幕、用于显示来自当前文档集合和待分析的方面的最佳分析仪表板的分析屏幕、以及用于列出可用方面的方面屏幕组成。在开始讨论说明性实施例的各个方面之前,首先应当理解,在整个说明书中,术语“机制”(mechanism)将用于指代执行各种操作,功能和本专利技术的元件。喜欢。这里使用的术语“机制”可以是装置,过程或计算机程序产品形式的说明性实施例的功能或方面的实现。在过程的情况下,该过程由一个或多个设备,装置,计算机,数据处理系统等实现。在计算机程序产品的情况下,由计算机代码或包含在计算机程序产品中或计算机程序产品上的指令表示的逻辑由一个或多个硬件设备执行,以便实现功能或执行与特定“机制”相关联的操作。“因此,这里描述的机制可以实现为专用硬件,在通用硬件上执行的软件,存储在介质上的软件指令,使得指令易于由专用或通用硬件执行,用于执行功能的过程或方法,或任何上述的组合。本说明本文档来自技高网...

【技术保护点】
1.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备,该方法包括:通过在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;由统计分析模块利用第一方面的值对该组文档进行第二统计分析;和通过由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。

【技术特征摘要】
【国外来华专利技术】2017.03.30 US 15/473,949;2017.06.19 US 15/626,8381.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备,该方法包括:通过在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;由统计分析模块利用第一方面的值对该组文档进行第二统计分析;和通过由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。2.根据权利要求1所述的方法,其中从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取查询词或短语,并且其中执行所述第一统计分析包括使用从自然语言句子中提取的所述查询词或短语缩小所述文档组。3.如前述权利要求中任一项所述的方法,其中从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取所述第一统计分析的类型,并且其中执行所述第一统计分析包括执行从自然语言句子中提取的类型的所述第一统计分析。4.根据前述权利要求中任一项所述的方法,其中从所述自然语言句子中提取所述第一方面包括提取用于确定所述第一方面的值的算法,并且其中确定所述第一方面的值包括使用从自然语言句子中提取的算法确定所述第一方面的值。5.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括从所述第一方面的多个值中选择所述第一方面的值,所述选定值使得所述第一统计分析的结果为最高。6.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括从用户接收经由所述用户界面从所述第一方面的多个值中对所述第一方面的值的选择。7.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括:通过在所述文档分析设备内执行的建议模块,从所述第一方面的多个值中选择所述第一方面的值。8.如前述权利要求中任一项所述的方法,其中所述第二统计分析是预定类型的统计分析。9.根据前述权利要求中任一项所述的方法,其中,所述第二统计分析是基于所述多种类型的统计分析的结果从所述多种类型中选择的类型的统计分析。10.根据前述权利要求中任一项所述的方法,其中,所述第二统计分析是与所述第一统计分析的类型相同的统计分析。11.一种用于对关于方面执行文档的统计分析的装置,所述装置包括:处理器;和耦合到处理器的存储器,其中存储器包括指令,所述指令当由处理器执行时,使...

【专利技术属性】
技术研发人员:石川隼辅米谷雅树守屋丰菊地弘晶
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国,US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1