具有用于即时索引的方法的多用户搜索系统技术方案

技术编号:15247364 阅读:104 留言:0更新日期:2017-05-02 03:26
一种用于即时索引的多用户搜索系统包括:存储用于文档的当前版本的令牌集合的令牌存储库;令牌化器服务器,其对文档的新版本进行令牌化,并且生成用于文档的新版本的令牌集合;即时索引器,其基于所识别出的用于文档的新版本的令牌集合与用于文档的当前版本的令牌集合之间的差异确定将用来对文档进行索引的令牌,并且生成包括所述将用来对文档进行索引的令牌的索引变种;与时间标记相关联地存储所生成的索引变种的索引变种日记;以及索引变种服务器,其把来自与由索引服务器指定的时间标记相比更新的时间标记相关联的所生成的索引变种的将用来对文档进行索引的令牌从索引变种日记提供到索引服务器。

Multi user search system having a method for immediate indexing

A search system for multi user instant index: token repository for the document in the current version of the storage token set; a token server, the new version of the document was a token, and generate a new version of the document for the token set; instant index, the difference between the current version of the new version the identified for the document collection and the token for the document set is determined based on the token will be used to index the document and generate tokens, including the document will be used to index the token index variable; and time variant marker index associated with storing the generated index variant diary; the variant and the index server from time stamp update related index linked variants generated compared with the time mark specified by the index server A token that is used to index the document from the index variant diary to the index server.

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术公开的技术总体上涉及信息取回计算机系统,更具体来说涉及具有用于即时索引的方法的多用户搜索系统。
技术介绍
计算机是用于在海量信息当中搜索相关信息的非常强有力的工具。索引是用于利用计算机高效地识别大量信息当中的感兴趣信息的常见机制。典型的索引是关键字到从中提取或导出所述关键字的信息文档的有组织映射。作为一个实例,世界上的公共可访问网页的索引可以把网页中的单词映射到包含该单词的网页子集。在实际的物理索引本身(例如存储在一台或多台计算机上的索引数据)与系统的用户之间,通常提供作为软件缓冲或层的搜索系统。实质上,搜索系统使得用户无需知道或者甚至关心底层索引细节。通常来说,来自用户的针对索引中的信息的所有请求都由搜索系统处理。举例来说,可以由搜索系统利用索引识别与用户的信息请求相关的文档,而完全不需要用户知道底层索引实现方式。通过这种方式,搜索系统为用户提供对于相关信息的访问,而无需关注信息如何被索引或访问。用于识别世界上的公共可访问网页当中的相关信息的一种众所周知的搜索系统是由GoogleInc.(MountainView,California)提供的GOOGLE因特网搜索引擎。搜索系统的一项功能是回答搜索查询(或者简称作“查询”)。查询可以被定义成包括由一个或多个搜索项构成的集合的逻辑表达式,并且导致识别出索引文档的一个子集。例如考虑对于来自因特网搜索引擎的信息请求的应对。在操作中,该请求通常由客户端系统作为一项或多项超文本传输协议或“HTTP”请求发出,以用于从服务器计算机上的索引取回特定的搜索结果(例如包含单词“大学”和“篮球”的所有因特网网页的列表)。响应于该请求,搜索系统通常返回一个网页,其中包含去到被认为对于搜索项“大学”和“篮球”是最相关的那些因特网网页的超链接。因特网搜索引擎非常适合于搜索在因特网上公共可用的所有世界上的信息。但是近来用户开始积累大量的“个人”数字信息,其在因特网上并不是公共可访问的,也无法通过因特网搜索引擎进行索引。这样的信息例如可以包括个人数字照片、学校和工作文档以及其他个人和私有数字信息。在一些实例中,用户的个人数字信息与一个已定义的用户群组共享。举例来说,雇员可以与其他同事共享工作文档,或者用户可以与朋友或家人共享数字照片。用户近来开始存储和管理所有其个人数字信息的一种方式是通过使用云端数据存储服务。这样的服务允许用户从其各种末端用户计算设备在因特网或其他网络上可访问的服务器计算机上上传和存储器个人数字信息。在一些实例中,所述服务可以在末端用户计算设备与服务的服务器计算机之间同步信息,以便于用户在末端用户计算设备处的本地信息访问。一种众所周知的云端数据存储服务是由DropboxInc.(SanFrancisco,California)提供的DROPBOX内容管理服务。云端数据存储服务的用户将认识到用以搜索和找到由此类服务托管的其个人数字信息的方式的价值。这样的个人数字信息通常不是因特网上公共可访问的。为此以及其他原因,因特网搜索引擎通常不足以满足这些用户的搜索需求。在本节中所描述的方法是可以采取的方法,但不一定是先前已被设想到或已被采取的方法。因此,除非另行表明,否则不应当假设在本节中所描述的任何方法仅仅由于其被包括在本节中就有资格作为现有技术。附图说明图1是根据本专利技术的一些实施例的基本计算设备的方块图。图2是根据本专利技术的一些实施例的用于控制计算设备的操作的基本软件系统的方块图。图3是根据本专利技术的一些实施例的包括多用户搜索系统的客户端/服务器系统的方块图。图4是根据本专利技术的一些实施例的多用户搜索系统的服务系统的方块图。图5是根据本专利技术的一些实施例的碎片化(sharded)文档索引的索引碎片的方块图。图6示出了根据本专利技术的一些实施例的用于多用户搜索系统的令牌存储库的可能模式。图7是根据本专利技术的一些实施例的用于构造碎片化文档索引的多用户搜索系统的索引器的方块图。图8示出了根据本专利技术的一些实施例的多用户搜索系统的索引服务器处的索引的可能生命周期。图9是根据本专利技术的一些实施例的用于生成针对碎片化文档索引的索引变种的多用户搜索系统的索引器的方块图。图10A和图10B包括根据本专利技术的一些实施例的多用户搜索系统的即时索引器的示例性操作的流程图。图11A和图11B示出了根据本专利技术的一些实施例的即时索引器的示例性操作期间的多用户搜索系统的令牌存储库的各种可能的状态。图12A和12B包括根据本专利技术的一些实施例的用于即时索引的处理的流程图。图13A是根据本专利技术的一些实施例的发生改变的文档消息的方块图。图13B是根据本专利技术的一些实施例的索引变种日记条目的方块图。具体实施方式在后面的描述中,出于解释的目的阐述了许多具体细节,以便提供关于所公开的技术的透彻理解。但是应当认识到,可以在没有这些具体细节的情况下实践所公开的技术。此外,通过方块图的形式示出了众所周知的结构和设备,以避免不必要地模糊所公开的技术。关于流程图,流程图内的方块既可以表示方法步骤也可以表示用于实施方法步骤的装置单元。取决于当前的特定实现方式的需求,相应的装置单元可以通过硬件、软件、固件或其组合来配置。还应当理解的是,虽然在这里可能使用了“第一”、“第二”等术语来描述各个单元,但是这些单元不应当受限于这些术语。这些术语仅仅被用来把一个单元与另一个单元进行区分。举例来说,第一设备可以被称作第二设备,并且类似地第二设备可以被称作第一设备,而不会背离本专利技术的范围。第一设备和第二设备都是设备,但不是相同的设备。这里所使用的术语仅仅是用于描述特定实现方式的目的,而不意图限制权利要求书。除非上下文明确地另有所指,否则在本说明书和所附权利要求书中使用的单数形式“一个”、“一项”也意图包括复数形式。还应当理解的是,这里所使用的术语“和/或”指代并且涵盖所列出的其中一个或多个相关联的项目的任何和所有可能的组合。还应当理解的是,在本说明书中使用的术语“包括”表明所陈述的特征、整数、步骤、操作、单元和/或组件的存在,而不排除存在或添加一个或多个其他特征、整数、步骤、操作、单元、组件和/或其组合。取决于上下文,术语“如果”可以被解释成意味着“当…时”或者“在…情况下”或者“响应于确定…”或者“响应于检测到…”。类似地,取决于上下文,短语“如果确定…”或者“如果检测到[所陈述的条件或事件]”可以被解释成意味着“在确定…情况下”或者“响应于确定…”或者“在检测到[所陈述的条件或事件]的情况下”或者“响应于检测到[所陈述的条件或事件]”。总览本专利技术公开了具有用于文档的即时索引的方法的多用户计算机搜索系统。所述文档例如可以包括由用户最近创建或者最近修改的文档。除了其他方面之外,各个实施例特别允许用户在文档被创建或修改之后不久(例如几分钟内)对文档实施全文本和文件名搜索。除了其他方面之外,本专利技术的各个实施例促进在多用户计算机搜索系统中对于用户的个人文档的全文本和文件名搜索,其中时时创建新的文档并且更新现有文档。除了其他方面之外,本专利技术的各个实施例实现了利用计算机进行信息取回的
内的改进。除了其他方面之外,本专利技术的各个实施例改进了由云端数据存储服务提供商提供的多用户云端数据存储服务。除了其他方面之外,本专利技术的各个实施例改进了多本文档来自技高网
...

【技术保护点】
一种系统,包括:一个或多个硬件处理器;存储用于文档的当前版本的令牌集合的令牌存储库;令牌化器服务器,其被配置成通过至少其中一个硬件处理器对文档的新版本进行令牌化,并且通过至少其中一个硬件处理器生成用于文档的新版本的令牌集合;即时索引器服务器,其被配置成基于所识别出的用于文档的新版本的令牌集合与用于文档的当前版本的令牌集合之间的差异,通过至少其中一个硬件处理器确定将用来对文档进行索引的一个或多个令牌,并且通过至少其中一个硬件处理器生成包括将用来对文档进行索引的所述一个或多个令牌的索引变种;索引变种日记,其被配置成与时间标记相关联地存储索引变种;以及索引变种服务器,其被配置成在与索引变种日记中的索引变种相关联的时间标记比由索引服务器指定的时间标记更近期的情况下,通过至少其中一个硬件处理器把将用来对文档进行索引的所述一个或多个令牌从索引变种日记中的索引变种提供到索引服务器。

【技术特征摘要】
【国外来华专利技术】2014.08.21 US 62/040,382;2014.11.26 US 14/555,1401.一种系统,包括:一个或多个硬件处理器;存储用于文档的当前版本的令牌集合的令牌存储库;令牌化器服务器,其被配置成通过至少其中一个硬件处理器对文档的新版本进行令牌化,并且通过至少其中一个硬件处理器生成用于文档的新版本的令牌集合;即时索引器服务器,其被配置成基于所识别出的用于文档的新版本的令牌集合与用于文档的当前版本的令牌集合之间的差异,通过至少其中一个硬件处理器确定将用来对文档进行索引的一个或多个令牌,并且通过至少其中一个硬件处理器生成包括将用来对文档进行索引的所述一个或多个令牌的索引变种;索引变种日记,其被配置成与时间标记相关联地存储索引变种;以及索引变种服务器,其被配置成在与索引变种日记中的索引变种相关联的时间标记比由索引服务器指定的时间标记更近期的情况下,通过至少其中一个硬件处理器把将用来对文档进行索引的所述一个或多个令牌从索引变种日记中的索引变种提供到索引服务器。2.根据权利要求1所述的系统,其中:即时索引器服务器还被配置成基于所识别出的用于文档的新版本的令牌集合与用于文档的当前版本的令牌集合之间的差异,通过至少其中一个硬件处理器确定将不会用来对文档进行索引的一个或多个令牌,并且通过至少其中一个硬件处理器生成包括将不会用来对文档进行索引的所述一个或多个令牌的索引变种;并且索引变种服务器还被配置成在与索引变种日记中的索引变种相关联的时间标记比由索引服务器指定的时间标记更近期的情况下,通过至少其中一个硬件处理器把将不会用来对文档进行索引的所述一个或多个令牌从索引变种日记中的索引变种提供到索引服务器。3.根据权利要求1所述的系统,其中,索引服务器还被配置成:通过至少其中一个硬件处理器在被发送到索引变种服务器的网络请求中发送所指定的时间标记;响应于发送网络请求,通过至少其中一个硬件处理器从索引变种服务器接收将用来对文档进行索引的所述一个或多个令牌;以及基于将用来对文档进行索引的所述一个或多个令牌,通过至少其中一个硬件处理器更新对文档进行索引的索引服务器处的索引。4.根据权利要求1所述的系统,还包括:适于耦合到令牌化器和即时索引器的消息队列;其中,令牌化器还被配置成响应于对文档的新版本进行令牌化并且为之生成令牌集合,通过至少其中一个硬件处理器将消息放置在消息队列中,所述消息包括文档的标识符;并且其中,即时索引器服务器被配置成通过至少其中一个硬件处理器把所述消息从消息队列中退出并且处理所述消息。5.根据权利要求1所述的系统,其中:索引变种日记还被配置成与文档所属的文档命名空间的标识符相关联地存储索引变种;索引变种服务器还被配置成基于与索引变种日记中的索引变种相关联的内容项目命名空间标识符,通过至少其中一个硬件处理器把索引变种日记中的索引变种识别成用于索引服务器;并且其中,索引服务器对属于所述内容项目命名空间的一个或多个文档进行索引。6.根据权利要求1所述的系统,其中:所述索引变种是第一索引变种;所述文档是第一文档;令牌存储库存储用于不是第一文档的第二文档的当前版本的令牌集合;令牌化器服务器还被配置成通过至少其中一个硬件处理器对第二文档的新版本进行令牌化,并且通过至少其中一个硬件处理器生成用于第二文档的新版本的令牌集合;即时索引器服务器还被配置成基于所识别出的用于第二文档的新版本的令牌集合与用于第二文档的当前版本的令牌集合之间的差异,通过至少其中一个硬件处理器确定将用来对第二文档进行索引的一个或多个令牌,确定第二文档的新版本是绕过文档版本还是非绕过文档版本,并且基于所述文档的新版本是绕过文档版本还是非绕过文档版本生成用于第二文档的新版本的第二索引变种,其中包括关于第二索引变种是绕过索引变种还是非绕过索引变种的规定;并且索引变种服务器还被配置成在第二索引变种是非绕过索引变种的情况下通过至少其中一个硬件处理器将第二索引变种提供到索引服务器,或者在所生成的索引变种是绕过索引变种的情况下不通过至少其中一个硬件处理器把所生成的索引变种提供到索引服务器。7.根据权利要求1所述的系统,其中:索引服务器还被配置成基于将用来对文档进行索引的所述一个或多个令牌,通过至少其中一个硬件处理器更新对文档进行索引的索引服务器处的索引;在对索引服务器处的索引进行更新之后,索引服务器处的索引包括基础索引和增量索引;在对索引服务器处的索引进行更新之后,基础索引包括用于文档的当前版本的令牌集合中的每一个令牌的索引条目,基础索引中的索引条目包括所述每一个令牌以及标识文档的记录列表;并且在对索引服务器处的索引进行更新之后,增量索引包括用于将用来对文档进行索引的所述一个或多个令牌当中的每一个令牌的索引条目,增量索引中的索引条目包括所述每一个令牌以及标识文档的记录列表。8.一种系统,包括:用于存储用于文档的当前版本的令牌集合的装置;用于对文档的新版本进行令牌化的装置;用于通过至少其中一个硬件处理器生成用于文档的新版本的令牌集合的装置;用于基于所识别出的用于文档的新版本的令牌集合与用于文档的当前版本的令牌集合之间的差异确定将用来对文档进行索引的一个或多个令牌的装置;用于生成包括将用来对文档进行索引的所述一个或多个令牌的索引变种的装置;用于把索引变种与时间标记相关联地存储在索引变种日记中的装置;以及用于在与索引变种日记中的索引变种相关联的时间标记比由索引服务器指定的时间标记更近期的情况下,把将用来对文档进行索引的所述一个或多个令牌从索引变种日记中的索引变种提供到索引服务器的装置。9.根据权利要求8所述的系统,还包括:用于基于所识别出的用于文档的新版本的令牌集合与用于文档的当前版本的令牌集合之间的差异确定将不会用来对文档进行索引的一个或多个令牌的装置;用于生成包括将不会用来对文档进行索引的所述一个或多个令牌的索引变种的装置;以及用于在与索引变种日记中的索引变种相关联的时间标记比由索引服务器指定的时间标记更近期的情况下,把将不会用来对文档进行索引的所述一个或多个令牌从索引变种日记中的索引变种提供到索引服务器的装置。10.根据权利要求8所述的系统,还包括:用于在来自索引服务器的...

【专利技术属性】
技术研发人员:S·格尔F·查斯塔格诺A·阿格拉瓦尔
申请(专利权)人:卓普网盘股份有限公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1