【技术实现步骤摘要】
【国外来华专利技术】用自然语言对话支持交互式文本挖掘处理
本申请一般涉及改进的数据处理设备和方法,并且更具体地涉及用于关于方面(facet)的文档的统计分析机制。
技术介绍
文本挖掘是用于从文档的大量非结构化文本数据获取知识而不必阅读文档的整个内容的技术。文本挖掘系统可以分析非结构化文本数据,并提取方面,方面是表示文档特征的单词或短语集。此外,文本挖掘系统可以利用查询缩小文档(例如,自然语言句子搜索中的查询,方面搜索中的查询),并且对关于方面的当前文档(缩小的文档)执行各种统计分析。为了获得文本挖掘的重要结果,一个分析过程是不充分的并且需要执行两个分析过程。这两个分析过程可以包括将文档缩小为感兴趣(interesting)文档并识别特定于感兴趣文档的单词的第一分析过程,以及识别单词出现原因的第二分析过程。然而,由于通常假设仅执行第一分析过程,因此出现用户不太可能获得文本挖掘的显著结果的问题。因此,本领域需要解决上述问题。
技术实现思路
从第一方面来看,本专利技术提供了一种方法,在包括至少一个处理器和至少一个存储器的数据处理系统中,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使得所述至少一个处理器,用于实现文档分析设备,用于对关于方面的文档进行统计分析,该方法包括:由在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;统 ...
【技术保护点】
1.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备,该方法包括:通过在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;由统计分析模块利用第一方面的值对该组文档进行第二统计分析;和通过由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。
【技术特征摘要】
【国外来华专利技术】2017.03.30 US 15/473,949;2017.06.19 US 15/626,8381.一种在包括至少一个处理器和至少一个存储器的数据处理系统中的方法,所述至少一个存储器包括由所述至少一个处理器执行的指令,以使所述至少一个处理器实现用于执行关于方面的文档的统计分析的文档分析设备,该方法包括:通过在文档分析设备内执行的接受模块接受自然语言句子;通过在文档分析设备内执行的提取模块,从自然语言句子中提取第一方面;通过在文档分析设备内执行的统计分析模块执行关于第一方面的一组文档的第一统计分析;响应于从自然语言句子中提取的信息,由统计分析模块基于第一统计分析的结果确定第一方面的值,该信息请求第二统计分析;由统计分析模块利用第一方面的值对该组文档进行第二统计分析;和通过由数据处理系统执行的用户界面呈现基于第二统计分析的结果确定的第二方面。2.根据权利要求1所述的方法,其中从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取查询词或短语,并且其中执行所述第一统计分析包括使用从自然语言句子中提取的所述查询词或短语缩小所述文档组。3.如前述权利要求中任一项所述的方法,其中从所述自然语言句子中提取所述第一方面包括从所述自然语言句子中提取所述第一统计分析的类型,并且其中执行所述第一统计分析包括执行从自然语言句子中提取的类型的所述第一统计分析。4.根据前述权利要求中任一项所述的方法,其中从所述自然语言句子中提取所述第一方面包括提取用于确定所述第一方面的值的算法,并且其中确定所述第一方面的值包括使用从自然语言句子中提取的算法确定所述第一方面的值。5.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括从所述第一方面的多个值中选择所述第一方面的值,所述选定值使得所述第一统计分析的结果为最高。6.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括从用户接收经由所述用户界面从所述第一方面的多个值中对所述第一方面的值的选择。7.根据前述权利要求中任一项所述的方法,其中确定所述第一方面的值包括:通过在所述文档分析设备内执行的建议模块,从所述第一方面的多个值中选择所述第一方面的值。8.如前述权利要求中任一项所述的方法,其中所述第二统计分析是预定类型的统计分析。9.根据前述权利要求中任一项所述的方法,其中,所述第二统计分析是基于所述多种类型的统计分析的结果从所述多种类型中选择的类型的统计分析。10.根据前述权利要求中任一项所述的方法,其中,所述第二统计分析是与所述第一统计分析的类型相同的统计分析。11.一种用于对关于方面执行文档的统计分析的装置,所述装置包括:处理器;和耦合到处理器的存储器,其中存储器包括指令,所述指令当由处理器执行时,使...
【专利技术属性】
技术研发人员:石川隼辅,米谷雅树,守屋丰,菊地弘晶,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国,US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。