数据处理系统和方法技术方案

技术编号:2837801 阅读:128 留言:0更新日期:2012-04-11 18:40
一种数据处理方法包括接收搜索项、访问数据存储,数据存储包括至少一个可搜索的元素、选择搜索元素的成分,每个成分包含搜索项、以及创建成分的列表,该列表包括成分出现的指示符。

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术涉及一种,并涉及包括计算机可读介质的计算机程序产品,所述计算机可读介质包含用于执行所述数据处理方法的计算机可执行指令。
技术介绍
随着计算机技术的进步,创建诸如互联网的允许访问大量信息的电子数据库和系统变得可能。但是,这也产生了问题,即因为可用数据的数量使用户不能容易地访问多数相关信息。为了帮助用户,已经设计了很多提案,主要是在两个领域中,第一个是信息分类,第二个是用户与系统接口的结构。例如,美国专利US 6,363,377公开了一种搜索数据处理器,其是一种用于信息管理系统的与搜索引擎一起使用的工具,并且包括用于改进、过滤和组织搜索查询和搜索结果的方法。工具中的查询调谐器允许用户通过选择性地修改各个搜索项为更弱或更强并且并发请求多个搜索来自动再形成查询,以便从搜索引擎中找到合理数量的匹配文档,每个搜索具有各自不同的修改的查询。该工具还使用动态滤波器,其应用记录令牌的动态集合以限制任意搜索查询的结果,从而选择性地包括或排除对应于记录令牌集合的记录。该工具还包括结果组织器,其响应于搜索查询通过聚集从搜索返回的相同项来帮助用户理解和可视化大量返回的匹配文档。查询调谐器、动态滤波器和结果组织器可单独或相结合地被使用。搜索信息管理系统可以是合并式或分布式的,并且可横跨全局信息网络,比如互联网。该专利的系统旨在提高现有搜索引擎的查全率(recall)或查准率。其不提供任何更好地在搜索的数据库或信息管理系统中分类信息的方式,也不提供如何获取与所存储信息有关的有用元数据。美国专利申请公开2003/0033288公开了一种自动完成和自动校正的以文档为中心的系统。利用文档来创建信息空间。来自文档及其信息空间的实体被用来创建实体数据库。自动完成系统使用来自文档的片断周围的上下文信息来形成查询。该查询用来识别实体数据库中完成该片断的实体集合。自动校正系统使用来自文档中所识别的错误的上下文信息来形成查询。该查询用于识别实体数据库中校正错误的实体集合。但是,在该专利申请中描述的系统要求为系统中的每个文档创建实体的数据库。这在许多方面是极其低效的,其为每个文档请求额外信息的存储以及时间和处理能力来创建实体数据库。该专利申请中所描述的自动完成系统基于语言敏感的系统,语言敏感的系统使用语音的一些部分(名词、形容词等)和文档类别。自动完成也限制于在该文档的实体数据库中所找到的项,其是非常有限的项的集合。
技术实现思路
本专利技术的目的是对现有技术进行改进。根据本专利技术的第一方面,提供了一种数据处理方法,包括接收搜索项、访问数据存储,数据存储包括至少一个可搜索的元素、选择搜索元素的成分,每个成分包含搜索项、以及创建成分的列表,该列表包括成分出现的指示符。根据本专利技术的第二方面,提供了一种数据处理系统,包括用户接口设备,用于接收搜索项;处理器,被设置为访问数据存储,数据存储包括至少一个可搜索的元素、选择搜索元素的成分,每个成分包含搜索项、并创建成分的列表,该列表包括成分出现的指示符。根据本专利技术的第三方面,提供了一种用于控制数据处理系统的计算机可读介质上的计算机程序产品,该计算机程序产品包括用于以下操作的指令接收搜索项、访问数据存储,数据存储包括至少一个可搜索的元素、选择搜索元素的成分,每个成分包含搜索项、以及创建成分的列表,该列表包括成分出现的指示符。通过本专利技术,可能提供一种数据处理方法和系统,其在具有搜索项时将返回有意义的扩展项的列表,同时能够访问已知数据存储系统以实现所期望的目的。这在搜索项是单个词,比如姓时尤其有用,因为该数据处理方法将返回该单个词可能完成的列表,以及与那些有意义且最相关的词有关的指示,而不用提供大量的额外信息。扩展项的短列表可用于补充原始项,由此提供对搜索项的元数据的自动生成。有利地,每个成分出现的指示符是整数。这提供最简单的实施例,其步骤是为相关的所选成分的可能性评级。保持每个成分出现的计数(当然包含了原始搜索项),并且这可用于评级所检测的成分。优选地,搜索项是单个词,且所选成分包含不超过三个词。这降低了处理负载并产生了最可能有意义的结果,因为通常出现的短语很可能是被证明是对构成进一步查询或编辑数据库有用的数据类型。有利地,所述选择包括选取这样的成分,对于这些成分,包含该成分的可搜索元素与包含该成分中不是搜索项的那部分的可搜索元素的比例在预定义阈值之上。该比例给出了只选择那些可能是感兴趣的成分同时排除无价值和无意义的成分的有效方法。理想地,数据处理方法还包括从列表中选取最相关的成分。该选择步骤是自动的,或者可以在过滤处理方法结果时由用户执行。该方法选择包含搜索结果的五个最常出现的成分,或者更复杂的处理可设计来提供成分的列表。该选取可包括从成分的列表中移除那些被认为是无意义的成分。成分被认为是否有意义可基于要素的多个组合,包括与那些已经为了寻找所述成分而被搜索的元素的内容的交叉引用。附图说明现在将仅通过举例且参考附图来描述本专利技术的实施例,在附图中图1是数据处理方法的流程图,图2是数据处理系统的示意图,和图3是搜索项的示例相邻树。具体实施例方式图1示出了数据处理方法的流程图。该方法包括接收10搜索项、访问12数据存储,数据存储包括至少一个可搜索的元素、选择14搜索元素的成分,每个成分包含搜索项、以及创建16成分的列表,该列表包括成分出现的指示符。该方法还包括从列表中选择18最相关的成分。该方法在诸如与互联网22连接的桌面PC20的计算机上实现,如图2所示。该方法用于完成按搜索项或按收集与搜索项有关的元数据的方式所规定的名字。在图2所示的实施例中,用户已经经由用户接口设备19输入“BACH”作为搜索项24,用户接口设备19是标准计算机键盘。该方法的实质是搜索出项“BACH”通常出现的后缀和前缀,以获取有关项“BACH”的进一步相关信息。该所获取的进一步信息可用于填充数据库,或者用于帮助创建进一步的搜索查询。在图2的例子中,搜索项24是单个词,尽管不存在该方法中不能使用更大的搜索项的原因。用户可输入他们选择的任何项,不存在对搜索项24格式的限制。在本例中,使用搜索项“BACH”所期望的目的是寻找这个姓氏最合乎逻辑的一个或多个填空。PC20的处理器21被设置为经由互联网22访问一个或多个数据存储26。这些存储26通常可以是由商业或教育组织,或者由个人作为一般利益网站维护的网站。搜索引擎,比如Google(www.google.com)或Yahoo(www.yahoo.com)可用于经由互联网22寻找包含特定搜索项的可用网页和文档。在许多情况下,单个词将返回上万个包含搜索项的网页。PC20经由互联网22连接到那些包含元素28的数据存储26,元素28包括搜索项24。元素28将是经由网页可用的网页和文件。PC20的处理器21执行每个所找到的包含搜索项24(“BACH”)的可搜索元素28的分析。这个分析将查看上下文,在上下文中搜索项24的每个实例在可搜索元素28中使用。这识别了包括搜索项24的元素28的特殊成分30。搜索项24的所有前缀和后缀被检查,并且出现得在某个阈值(可能为十次)之上的那些被认为是值得监控的成分30。某些明显且标准的语言使用,诸如直接和间接冠词“the”和“a”被排除出被考虑为值得检查的成分。在诸如“本文档来自技高网
...

【技术保护点】
一种数据处理方法,包括接收(10)搜索项(24)、访问(12)数据存储(26),数据存储(26)包括至少一个可搜索的元素(28)、选择(14)搜索元素(28)的成分(30),每个成分(30)包含搜索项(24)、以及创建(16)成分(30)的列表(32),该列表(32)包括成分(30)出现的指示符(34)。

【技术特征摘要】
【国外来华专利技术】GB 2004-10-28 0423879.61.一种数据处理方法,包括接收(10)搜索项(24)、访问(12)数据存储(26),数据存储(26)包括至少一个可搜索的元素(28)、选择(14)搜索元素(28)的成分(30),每个成分(30)包含搜索项(24)、以及创建(16)成分(30)的列表(32),该列表(32)包括成分(30)出现的指示符(34)。2.根据权利要求1的数据处理方法,其中每个成分(30)出现的指示符(34)是整数(34)。3.根据权利要求1或2的数据处理方法,其中搜索项(24)是单个词(24)。4.根据权利要求1或2的数据处理方法,其中所选成分(30)包含不多于三个词。5.根据任一前述权利要求的数据处理方法,其中所述选择(14)包括选择这样的成分(30),对于这些成分,包含该成分(30)的可搜索元素(28)与那些包含该成分(30)中不是搜索项(24)的那部分的可搜索元素(28)的比例在预定义阈值之上。6.根据任一前述权利要求的数据处理方法,还包括从列表(32)中选取(18)最相关的成分(30)。7.根据权利要求6的数据处理方法,其中所述选取(18)包括从成分(30)的列表(32)中移除那些被认为是无意义的成分(30)。8.一种数据处理系统,包括用户接口设备(19),用于接收搜索项(24);处理器(21),被设置为访问数据存储(26),数据存储(26)包括至少一个可搜索的元素(28)、选择搜索元素(28)的成分(30),每个成分(30)包含搜索项(24)、并创建成分(30)的列表(32),该列表(32)包括成分(30)出现的指示符(34)。9.根据权利要求8的数据处理系统,还包括网络接口,处理器(21)被设置为经由该网络接口来访问数据存储(26)。10.根据权利要求8或9的数据处理系统,其中每个成分(30)出现的指示符(34)是整数(34)。11.根据权利要求8、9或10的数据处理系统,其中搜索项(24)是单个词(24)。12.根据权利要求8到11中任意一...

【专利技术属性】
技术研发人员:JHM科斯特N德琼格MPF弗施库尔
申请(专利权)人:皇家飞利浦电子股份有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1