用于文本挖掘和搜索的数据透视面制造技术

技术编号:10434595 阅读:106 留言:0更新日期:2014-09-17 12:00
本发明专利技术涉及一种用于文本挖掘和搜索的数据透视面。提供了用于提供和使用数据透视面进行文本挖掘和搜索的技术。将元数据字段映射到数据透视面。响应于执行第一查询,显示至少第一文档和所述数据透视面。响应于选择所述数据透视面,生成包括所述元数据字段的值的第二查询;以及执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。

【技术实现步骤摘要】
【专利摘要】本专利技术涉及一种用于文本挖掘和搜索的数据透视面。提供了用于提供和使用数据透视面进行文本挖掘和搜索的技术。将元数据字段映射到数据透视面。响应于执行第一查询,显示至少第一文档和所述数据透视面。响应于选择所述数据透视面,生成包括所述元数据字段的值的第二查询;以及执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。【专利说明】用于文本挖掘和搜索的数据透视面
本专利技术的各实施例涉及用于文本挖掘和搜索的数据透视面(PiVOt facet)。
技术介绍
搜索和文本分析系统传统上处理“扁平化”数据和信息,其中在文档级整理链接数据。搜索系统一般接收查询并执行该查询以识别诸如文档之类的搜索结果。搜索结果解析到文档级,并且面(维度)可被用于导航或向下挖掘以从被生效查询和其它选择条件约束的当前可用搜索结果中选择较窄的结果。 文本分析系统一般分析文档中的文本以生成要分析的信息(例如,通过词法分析研究单词频率分布、模式识别、标记/注释识别、信息提取等)。文本分析也可被称为数据挖掘,并且可以包括执行链接和关联分析以及向下挖掘。 有时,关系数据也包括在搜索或文本挖掘集合中,但是信息之间的关系可被扁平化(丢弃)以符合简单文档模型。如果用户希望使用此类存储在搜索引擎的扁平化文档中的关系信息,并且向下挖掘到链接信息,则该用户可以查看搜索结果中的文档元数据,选择包含“关系”数据中的键的字段,清除当前查询和搜索条件,以及使用该键发出新查询以查看搜索结果中的相关数据或导航到各个相关的数据文档。
技术实现思路
提供了一种用于提供和使用数据透视面进行文本挖掘和搜索的方法。使用计算机的处理器将元数据字段映射到数据透视面。响应于执行第一查询,使用所述计算机的所述处理器显示至少第一文档和所述数据透视面。响应于选择所述数据透视面,使用所述计算机的所述处理器生成包括所述元数据字段的值的第二查询;以及使用所述计算机的所述处理器执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。 提供了一种用于提供和使用数据透视面进行文本挖掘和搜索的计算机程序产品。所述计算机产品包括其中包含程序代码的计算机可读存储介质,所述程序代码可被至少一个处理器执行以:由所述至少一个处理器将元数据字段映射到数据透视面;响应于执行第一查询,由所述至少一个处理器显示至少第一文档和所述数据透视面;以及响应于选择所述数据透视面,由所述至少一个处理器生成包括所述元数据字段的值的第二查询,以及由所述至少一个处理器执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。 提供了一种用于提供和使用数据透视面进行文本挖掘和搜索的计算机系统。所述计算机系统包括一个或多个处理器、一个或多个计算机可读存储器以及一个或多个计算机可读有形存储设备;以及程序指令,其存储在所述一个或多个计算机可读有形存储设备中的至少一个上,以便经由所述一个或多个存储器中的至少一个而由所述一个或多个处理器中的至少一个执行以:将元数据字段映射到数据透视面;响应于执行第一查询,显示至少第一文档和所述数据透视面;以及响应于选择所述数据透视面,生成包括所述元数据字段的值的第二查询;以及执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。 【专利附图】【附图说明】 现在参考附图,其中相同的参考标号表示以下全部附图中对应的部件: 图1示出根据特定实施例的计算环境; 图2示出根据特定实施例的文本搜索引擎的细节; 图3示出根据特定实施例的在流程图中被执行以创建数据透视面的操作; 图4示出根据特定实施例的在流程图中被执行以使用数据透视面的操作; 图5示出根据特定实施例的分层文档; 图6示出根据特定实施例的带有分层文档的数据透视面的搜索结果; 图7示出根据特定实施例的复合文档; 图8示出根据特定实施例的双集合; 图9示出根据特定实施例的实例索引; 图10示出根据特定实施例的用于将就诊表导入文档实例的信息; 图11示出根据特定实施例的文档实例的创建; 图12示出根据特定实施例的两个不同的记录类型; 图13示出根据特定实施例的带有数据透视面的搜索结果; 图14示出根据特定实施例的云计算节点; 图15示出根据特定实施例的云计算环境; 图16示出根据特定实施例的抽象模型层。 【具体实施方式】 以上已经描述了本专利技术的各实施例,上述说明是示例性的,并非穷尽性的,并且也不限于所披露的各实施例。在不偏离所说明的各实施例的范围和精神的情况下,对于本
的普通技术人员来说许多修改和变更都是显而易见的。本文中所用术语的选择,旨在最好地解释各实施例的原理、实际应用或对市场中的技术的技术改进,或者使本
的其它普通技术人员能理解本文披露的各实施例。 图1示出根据特定实施例的计算环境。计算设备100包括文本搜索引擎110、数据透视面计算模块140和文本分析引擎130。计算设备100与数据存储库150耦合。数据存储库150包括文档160、数据透视面162、数据库170和一个或多个索引180。 在特定实施例中,文本搜索引擎110和数据透视面计算模块140提供高效的文本文档搜索能力。除了包含在文档中的原始文本之外,文本搜索引擎110还适合于与文档关联的元数据(字段)(例如,作者、创建日期、标题等)的摘取和搜索。数据透视面计算模块140在选定数据透视面时提供相关文档。 图2示出根据特定实施例的文本搜索引擎110的细节。文本搜索引擎110执行文档抓取120、文档处理122、创建索引124和运行时处理126。文档抓取120包括在提供本机访问控制列表(ACL)支持的同时抓取内容和元数据的一个或多个数据源。文档处理122包括从文档中提取文档抓取120所识别的文本,识别文档语言,以及应用一组文本分析(例如使用文本分析引擎130)以识别和提取文本中的各种特征。创建索引124接收已处理的文档并针对已创建的文档生成一个或多个索引180。运行时处理126包括高级搜索和面(facet)支持。 面可被描述为进行搜索以限制搜索结果(例如,一个或多个文档)的维度、属性或元数据。数据透视面可被描述为包含键值的维度、属性或元数据字段,该键值将特定文档链接到包含同一键值的语料库中的其它文档。在特定实施例中,使用数据透视面提供指向特定搜索结果的相关文档的可点击链接。 可选择数据透视面,并且响应于该选择,数据透视面计算模块140清除当前的查询和选择条件,并重新提交(提交到文本搜索引擎110)包含选择相关文档所需的键的新查询。文本搜索引擎110执行新查询并在搜索结果中显示相关文档。在特定实施例中,数据透视面计算模块140可以清除当前的查询并向搜索条件添加附加的条件。 图3示出根据特定实施例的在流程图中被执行以创建数据透视面的操作。控制在方框300开始,其中特定元数据字段被识别为键字段以形成键元数据字段。键元数据字段的唯一标识符可用于识别文档集。在特定实施例中,判定哪个元数据为“键”字段(可能映射到数据透视面)由已抓取的源存储库指示,或者在源存储库不可用的情况下,由文本搜索引擎110的管理员指示。例如,如果要建立父可能具有多个子的父子关系模型,父文档可包含被称本文档来自技高网
...
用于文本挖掘和搜索的数据透视面

【技术保护点】
一种方法,包括:使用计算机的处理器将元数据字段映射到数据透视面;响应于执行第一查询,使用所述计算机的所述处理器显示至少第一文档和所述数据透视面;以及响应于选择所述数据透视面,使用所述计算机的所述处理器生成包括所述元数据字段的值的第二查询;以及使用所述计算机的所述处理器执行所述第二查询以至少查找包括所述元数据字段的所述值的第二文档。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:B·W·伊曼纽尔T·莱瓦
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1