【技术实现步骤摘要】
一种基于互联网的搜索处理方法及装置
本专利技术实施例涉及计算机网络
,尤其涉及一种基于互联网的搜索处理方法及装置。
技术介绍
搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。现有的搜索引擎,能够按网站域名,对该网站的静态或动态网页文件进行索引、存档、调用及阅展等操作处理。且各个搜索引擎能够实现网页、图片、声音、视频、文件的搜索。以百度文库为例,由于文库的文档依赖与用户的主动上传,在存放后才能供其他用户查看,用户不上传则没有这些文件,在可搜索的范围、广度、深度上存在不足。另外,对于谷歌等搜索引擎,其只能针对网页上的内容进行索引,假如,网页上存在链接,链接对应的内容是索引不到的,此时便需要用户先查到网页,再点击链接获取对应的内容,如果链接对应 ...
【技术保护点】
一种基于互联网的搜索处理方法,其特征在于,包括:获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。
【技术特征摘要】
1.一种基于互联网的搜索处理方法,其特征在于,包括:获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,其中,所述文档索引库中的文档索引词是通过对互联网中的文档进行创建索引得到的;获取匹配成功的目标网页索引词对应的第一目标索引信息和匹配成功的目标文档索引词对应的第二目标索引信息,并将所述第一目标索引信息和所述第二目标索引信息发送至所述用户终端。2.根据权利要求1所述的方法,其特征在于,所述方法,还包括:预先创建所述网页索引库和所述文档索引库,所述网页索引库包括所述网页索引词和所述网页索引词对应的第一索引信息,所述文档索引库中包括所述文档索引词和所述文档索引词对应的第二索引信息。3.根据权利要求2所述的方法,其特征在于,所述预先创建所述文档索引库,包括:获取并解析待索引网页,若判断获知所述待索引网页中包括链接地址,则根据所述链接地址下载对应的文件;根据所述文件的文件头和/或文件后缀获得所述文件的文件类型;若根据所述文件类型判断获知所述文件为可被索引的第一文档,且所述第一文档未被索引,则对所述第一文档进行创建索引,并将所述第一文档对应的第一文档索引词存储在所述文档索引库中。4.根据权利要求3所述的方法,其特征在于,所述预先创建所述文档索引库,还包括:根据所述文件类型若判断获知所述文件为压缩文件,则对所述压缩文件进行解压缩,获得解压缩的文件夹;若判断获知所述解压缩的文件夹中包含可被索引的第二文档,且所述第二文档未被索引,则对所述第二文档进行创建索引,并将所述第二文档对应的第二文档索引词存储在所述文档索引库中。5.根据权利要求3或4所述的方法,其特征在于,所述可被索引的第一文档对应的文件类型和所述可被索引的第二文档对应的文档类型均包括:doc、docx、ppt、pptx、xls、xlsx、html、web、txt、pdf和eml中的任意一项或其组合。6.一种基于互联网的搜索处理装置,其特征在于,包括:获取模块,用于获取用户终端发送的搜索请求,所述搜索请求包括搜索关键词;索引模块,用于根据所述搜索关键词分别与网页索引库中的网页索引词和文档索引库中的文档索引词进行匹配,...
【专利技术属性】
技术研发人员:王务志,
申请(专利权)人:北京奇安信科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。