一种处理文档的方法及装置制造方法及图纸

技术编号:11480938 阅读:84 留言:0更新日期:2015-05-20 14:58
本发明专利技术公开一种处理文档的方法及装置,涉及信息搜索技术领域,可以提高新文档入库的实时性。本发明专利技术实施例通过对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。本发明专利技术适于对新文档入库保存时采用。

【技术实现步骤摘要】
一种处理文档的方法及装置
本专利技术涉及信息搜索
,尤其涉及一种处理文档的方法及装置。
技术介绍
用户对网页进行检索时,一般对网页的时新性要求较高。现有技术中对新文档的处理通常采用以下方式:当新文档累积到一定程度之后与旧文档进行合并,全部文档重新建立索引;或者,在新文档入库时,将新索引累积到一定的文档量时追加到旧索引后边。然而,采用现有技术处理新文档时,需要对新文档进行累积,当新文档累积到一定程度之后才建立索引,或者将新索引累积到一定的文档量后追加到旧索引后面,导致新文档不能及时地被用户检索到,实时性较差。
技术实现思路
本专利技术的实施例提供一种处理文档的方法及装置,可以提高新文档入库的实时性。第一方面,本专利技术的实施例提供一种处理文档的方法,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。第二方面,本专利技术的实施例提供一种处理文档的装置,包括:抽取单元,用于对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;分配单元,用于为所述文档分配内部文档编号;添加单元,用于将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号;保存单元,用于将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。本专利技术实施例提供一种处理文档的方法及装置,通过对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。与现有技术中处理新文档时,需要对新文档进行累积,当新文档累积到一定程度之后才建立索引或者将新索引累积到一定的文档量后追加到旧索引后面,导致新文档不能及时地被用户检索到,实时性较差相比,本专利技术实施例可以对单篇文档执行入库保存,从而可以提高文档入库的实时性。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例提供的一种处理文档的方法的流程图;图2为本专利技术实施例提供的另一种处理文档的方法的流程图;图3为本专利技术实施例提供的一种B+树示意图;图4为本专利技术实施例提供的另一种B+树示意图;图5为本专利技术实施例提供的另一种B+树示意图;图6为本专利技术实施例提供的另一种处理文档的方法的流程图;图7为本专利技术实施例提供的一种处理文档的装置的框图;图8为本专利技术实施例提供的另一种处理文档的装置的框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。实施例1本专利技术实施例提供一种处理文档的方法,该方法的执行主体可以为服务器。如图1所示,该方法包括:步骤101,对文档中的词语进行抽取处理,获得顺排信息。所述顺排信息包括文档编号以及所述文档中的各个词语的编号。例如,顺排信息可以为docid:wordid1,wordid2,wordid3…wordidN,其中,docid表示文档对应的文档编号,wordid1表示文档中第一个词语对应的词语的编号,N表示文档中词语的数量。可选的,本步骤包括:离线下载新网页,获得对应的文档;根据所述文档的网址,获得所述文档编号;对所述文档中的词语进行抽取处理,获得各个词语;根据所述各个词语,获得所述各个词语的编号;根据所述文档编号以及所述各个词语的编号,获得顺排信息。步骤102,为所述文档分配内部文档编号。可选的,对文档入库保存之前首先对文档进行转发处理,根据预设的文档转发规则将文档转发到一台机器上,由此机器执行入库操作。此机器为服务器中的一台机器,服务器中包括多台机器,可以为每一台机器顺序编号,当接收到文档的顺排信息之后,将不同的文档转发到不同的机器上进行并行处理,以加快文档入库的速度。内部文档编号为在单机内部使用的文档编号,不同的机器内的内部文档编号可以相同。每台机器内部存储一个初始化为0的全局变量,每接收到一篇新的文档之后,分配当前的全局变量作为文档入库的内部文档编号,然后全局变量自增1。例如,当前的全局变量为00130,接收到一篇新的文档之后,将00130分配给新的文档,然后全局变量变为00131,再接收到一篇新的文档之后,将00131分配给再次接收到的新的文档,然后全局变量变为00132,依次累加。本专利技术实施例在文档入库之前为文档分配内部文档编号,可以使得插入B+树的数据单调有序,B+树插入过程变成是顺序写入数据,因此不会出现B+树中的叶子节点重排序或者分裂的情况,降低操作难度,使得入库的速度得到很大的提升。步骤103,将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。每个词语的编号对应一棵B+树的倒排索引,所述倒排索引用于通过一个词语编号定位一个内部文档编号集,所述内部文档编号集中对应的每篇文档包括所述词语编号对应的词语。例如,倒排索引可以为wordid1:00019、00108…00130等,其中,wordid1表示词语的编号,00019、00108…00130构成内部文档编号集,包括多个内部文档编号,每个内部文档编号对应一个文档,此文档中包括wordid1。当用户检索信息时,输入查询字串,通过为查询字串分配词语的编号,并通过词语的编号可以快速定位到一个内部文档编号集,通过内部文档编号集可以获得检索的文档。可选的,对接收到的用户的查询字串进行预处理,获得所述查询字串中包括的各个词语的编号;根据所述各个词语的编号,获取所述各个词语的编号对应的内部文档编号中相同的内部文档编号,将所述相同的内部文档编号作为目标内部文档编号;根据内部文档编号到文档编号的映射关系,确定所述目标内部文档编号对应的文档编号,并输出所述文档编号对应的文档。本专利技术实施例提供一种处理文档的方法,通过对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中,使得可以对单篇文档执行入库保存,从而可以提高文档入库的实时性。本专利技术实施例提供一种处理文档的方法,该方法的执行主体可为服务器,该方法可以分为两个流程,一个为文档入库的流程,一个为用户实时检索的流程,如图2所示,该文档入库的流程具体包括:步骤201,离线下载新网页,获得对应的文档。当网站的网页有更新时,或者添加了新的本文档来自技高网...

【技术保护点】
一种处理文档的方法,其特征在于,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。

【技术特征摘要】
1.一种处理文档的方法,其特征在于,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号,其中,每个词语的编号对应一棵B+树的倒排索引,所述倒排索引用于通过一个词语编号定位一个内部文档编号集,所述内部文档编号集中对应的每篇文档包括所述词语编号对应的词语;为所述文档分配内部文档编号;依次获取所述顺排信息中的第一词语的编号,所述第一词语为所述各个词语中的任一词语;将所述内部文档编号插入到所述第一词语的编号对应的B+树的叶子节点中;将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。2.根据权利要求1所述的方法,其特征在于,所述对文档中的词语进行抽取处理,获得顺排信息,包括:离线下载新网页,获得对应的文档;根据所述文档的网址,获得所述文档编号;对所述文档中的词语进行抽取处理,获得各个词语;根据所述各个词语,获得所述各个词语的编号;根据所述文档编号以及所述各个词语的编号,获得顺排信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述文档的网址,获得所述文档编号,包括:根据所述文档的网址,计算所述文档的消息摘要算法第5版MD5值,并将所述文档的MD5值作为所述文档编号;所述根据所述各个词语,获得所述各个词语的编号,包括:根据所述各个词语,计算所述各个词语的MD5值,并将所述各个词语的MD5值作为所述各个词语的编号。4.根据权利要求1所述的方法,其特征在于,所述内部文档编号为根据一个初始化为0的全局变量获得的编号,当一个文档需要保存到数据库时,分配当前的全局变量为所述文档的内部文档编号,然后所述全局变量增加1。5.根据权利要求4所述的方法,其特征在于,在为所述文档分配内部文档编号之后,还包括:建立并保存所述内部文档编号到所述文档编号的映射关系。6.根据权利要求5所述的方法,其特征在于,所述保存所述文档编号到所述内部文档编号的映射关系,包括:采用连续的内存空间存储所述文档编号到所述内部文档编号的映射关系。7.根据权利要求1所述的方法,其特征在于,所述将所述内部文档编号插入到所述第一词语的编号对应的B+树的叶子节点中,包括:判断所述第一词语的编号对应的B+树的叶子节点是否已满;当所述B+树的叶子节点未满时,直接在当前叶子节点中添加所述内部文档编号;当所述B+树的叶子节点已满时,判断当前层叶子节点是否已满;当所述当前层叶子节点未满时,添加新的叶子节点,并在所述新的叶子节点中添加所述内部文档编号;当所述当前层叶子节点已满时,对所述B+树增加一层,并添加新的中间节点以及新叶子节点,并在所述新叶子节点中添加所述内部文档编号,所述新的中间节点连接所述当前层叶子节点以及所述新叶子节点。8.根据权利要求1所述的方法,其特征在于,在所述将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中之后,还包括:对接收到的用户的查询字串进行预处理,获得所述查询字串中包括的各个词语的编号;根据所述各个词语的编号,获取所述各个词语的编号对应的内部文档编号中相同的内部文档编号,将所述相同的内部文档编号作为目标内部文档编号;根据内部文档编号到文档编号的映射关系,确定所述目标内部文档编号对应的文档编号,并输出所述文档编号对应的文档。9.根据权利要求8所述的方法,其特征在于,所述对接收到的用户的查询信息进行预处理,获得所述查询字串中包括的各个词语的编号,包括:接收用户输入的查询字串;将所述查询字串进行纠错处理、单词切分处理,获得所述查询字串中包括的各个词语;根据所述各个词语,计算所述各个词语的MD5值,将所述各个词语的MD5值作为所述各个词语的编号。10.根据权利要求8所述的方法,其特征在于,每个词语的编号对应一棵B+树的倒排索引,所述倒排索引用于通过一个词语编号定位一个内部文档编号集,所述内部文档编号集中对应的每篇文档包括所述词语编号对应的词语。11.根据权利要求10所述的方法,其特征在于,所述根据所述各个词语的编号,获取所述各个词语的编号对应的内部文档编号中相同的内部文档编号,包括:分别根据所述各个词语的编号,查询所述各个词语的编号对应的内部文档编号,获取所述各个词语的编号对应的B+树的倒排索引;根据各个所述倒排索引的索引长度,获取长度最短的倒排索引;依次获取所述长度最短的倒排索引中的目标内部文档编号;当除所述长度最短的倒排索引之外的所述倒排索引中至少一个倒排索引不存在所述目标内部文档编号时,获取下一个所述目标内部文档编号;当除所述长度最短的倒排索引之外的所述倒排索引中都存在所述目标内部文档编号时,获取所述目标内部文档编号。12.一种处理文档的装置,其特征在于,包括:抽取单元,用于对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词...

【专利技术属性】
技术研发人员:施腾飞王中飞
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1