【技术实现步骤摘要】
一种处理文档的方法及装置
本专利技术涉及信息搜索
,尤其涉及一种处理文档的方法及装置。
技术介绍
用户对网页进行检索时,一般对网页的时新性要求较高。现有技术中对新文档的处理通常采用以下方式:当新文档累积到一定程度之后与旧文档进行合并,全部文档重新建立索引;或者,在新文档入库时,将新索引累积到一定的文档量时追加到旧索引后边。然而,采用现有技术处理新文档时,需要对新文档进行累积,当新文档累积到一定程度之后才建立索引,或者将新索引累积到一定的文档量后追加到旧索引后面,导致新文档不能及时地被用户检索到,实时性较差。
技术实现思路
本专利技术的实施例提供一种处理文档的方法及装置,可以提高新文档入库的实时性。第一方面,本专利技术的实施例提供一种处理文档的方法,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。第二方面,本专利技术的实施例提供一种处理文档的装置,包括:抽取单元,用于对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;分配单元,用于为所述文档分配内部文档编号;添加单元,用于将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号;保存单元,用于将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。本专利技术实施例提供一种处理文档的方法及装置,通过对文档中的词语进行抽取处理,获得顺排信息,所 ...
【技术保护点】
一种处理文档的方法,其特征在于,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号;为所述文档分配内部文档编号;将所述顺排信息中的各个词语的编号添加对应的所述内部文档编号,并将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。
【技术特征摘要】
1.一种处理文档的方法,其特征在于,包括:对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词语的编号,其中,每个词语的编号对应一棵B+树的倒排索引,所述倒排索引用于通过一个词语编号定位一个内部文档编号集,所述内部文档编号集中对应的每篇文档包括所述词语编号对应的词语;为所述文档分配内部文档编号;依次获取所述顺排信息中的第一词语的编号,所述第一词语为所述各个词语中的任一词语;将所述内部文档编号插入到所述第一词语的编号对应的B+树的叶子节点中;将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中。2.根据权利要求1所述的方法,其特征在于,所述对文档中的词语进行抽取处理,获得顺排信息,包括:离线下载新网页,获得对应的文档;根据所述文档的网址,获得所述文档编号;对所述文档中的词语进行抽取处理,获得各个词语;根据所述各个词语,获得所述各个词语的编号;根据所述文档编号以及所述各个词语的编号,获得顺排信息。3.根据权利要求2所述的方法,其特征在于,所述根据所述文档的网址,获得所述文档编号,包括:根据所述文档的网址,计算所述文档的消息摘要算法第5版MD5值,并将所述文档的MD5值作为所述文档编号;所述根据所述各个词语,获得所述各个词语的编号,包括:根据所述各个词语,计算所述各个词语的MD5值,并将所述各个词语的MD5值作为所述各个词语的编号。4.根据权利要求1所述的方法,其特征在于,所述内部文档编号为根据一个初始化为0的全局变量获得的编号,当一个文档需要保存到数据库时,分配当前的全局变量为所述文档的内部文档编号,然后所述全局变量增加1。5.根据权利要求4所述的方法,其特征在于,在为所述文档分配内部文档编号之后,还包括:建立并保存所述内部文档编号到所述文档编号的映射关系。6.根据权利要求5所述的方法,其特征在于,所述保存所述文档编号到所述内部文档编号的映射关系,包括:采用连续的内存空间存储所述文档编号到所述内部文档编号的映射关系。7.根据权利要求1所述的方法,其特征在于,所述将所述内部文档编号插入到所述第一词语的编号对应的B+树的叶子节点中,包括:判断所述第一词语的编号对应的B+树的叶子节点是否已满;当所述B+树的叶子节点未满时,直接在当前叶子节点中添加所述内部文档编号;当所述B+树的叶子节点已满时,判断当前层叶子节点是否已满;当所述当前层叶子节点未满时,添加新的叶子节点,并在所述新的叶子节点中添加所述内部文档编号;当所述当前层叶子节点已满时,对所述B+树增加一层,并添加新的中间节点以及新叶子节点,并在所述新叶子节点中添加所述内部文档编号,所述新的中间节点连接所述当前层叶子节点以及所述新叶子节点。8.根据权利要求1所述的方法,其特征在于,在所述将所述各个词语的编号以及所述内部文档编号的对应关系保存在数据库中之后,还包括:对接收到的用户的查询字串进行预处理,获得所述查询字串中包括的各个词语的编号;根据所述各个词语的编号,获取所述各个词语的编号对应的内部文档编号中相同的内部文档编号,将所述相同的内部文档编号作为目标内部文档编号;根据内部文档编号到文档编号的映射关系,确定所述目标内部文档编号对应的文档编号,并输出所述文档编号对应的文档。9.根据权利要求8所述的方法,其特征在于,所述对接收到的用户的查询信息进行预处理,获得所述查询字串中包括的各个词语的编号,包括:接收用户输入的查询字串;将所述查询字串进行纠错处理、单词切分处理,获得所述查询字串中包括的各个词语;根据所述各个词语,计算所述各个词语的MD5值,将所述各个词语的MD5值作为所述各个词语的编号。10.根据权利要求8所述的方法,其特征在于,每个词语的编号对应一棵B+树的倒排索引,所述倒排索引用于通过一个词语编号定位一个内部文档编号集,所述内部文档编号集中对应的每篇文档包括所述词语编号对应的词语。11.根据权利要求10所述的方法,其特征在于,所述根据所述各个词语的编号,获取所述各个词语的编号对应的内部文档编号中相同的内部文档编号,包括:分别根据所述各个词语的编号,查询所述各个词语的编号对应的内部文档编号,获取所述各个词语的编号对应的B+树的倒排索引;根据各个所述倒排索引的索引长度,获取长度最短的倒排索引;依次获取所述长度最短的倒排索引中的目标内部文档编号;当除所述长度最短的倒排索引之外的所述倒排索引中至少一个倒排索引不存在所述目标内部文档编号时,获取下一个所述目标内部文档编号;当除所述长度最短的倒排索引之外的所述倒排索引中都存在所述目标内部文档编号时,获取所述目标内部文档编号。12.一种处理文档的装置,其特征在于,包括:抽取单元,用于对文档中的词语进行抽取处理,获得顺排信息,所述顺排信息包括文档编号以及所述文档中的各个词...
【专利技术属性】
技术研发人员:施腾飞,王中飞,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。