当前位置: 首页 > 专利查询>张士益专利>正文

一种用于半封闭数据环境下的数据搜索的方法和装置制造方法及图纸

技术编号:8959474 阅读:123 留言:0更新日期:2013-07-25 19:01
本发明专利技术涉及一种用于半封闭数据环境下的数据搜索的方法和装置,包括:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。本发明专利技术可以无需建立特殊接口即可实现对半封闭数据环境的自动搜索,将其中所需要的数据准确的提取出来,从而提高了数据搜索效率、扩大了数据搜索范围,同时也提高了数据搜索结果的准确性。

【技术实现步骤摘要】

本专利技术涉及数据搜索领域,尤其涉及一种用于半封闭数据环境下的数据搜索的方法和装置
技术介绍
搜索引擎是根据一定的策略,运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索的相关信息展示给用户。在现有技术中,搜索引擎的工作过程是利用“蜘蛛”系统(或爬虫技术),自动访问互联网中的网页,读取该网页中的文字内容,并找到该网页中的包含的其他链接地址,并沿着该链接地址访问爬行到其他网页,“蜘蛛”系统在互联网中不断重复这种爬行过程,并把所爬行过的所有网页数据收集回来。现有的“蜘蛛”系统首先会从初始网址库中选取一个网站地址,一般是那些大型门户网站,从这些初始网址出发,蜘蛛会访问并下载对应的网页内容存储到数据库中,并将其中的文字提取出来进行分词后存入索引库中,同时,蜘蛛系统再提取出该网页内容中存在的其他网址链接,然后重复上述过程。由于一个网站中的各个网页之间存在着上下层级的链接关系,而且也可能存在着其他网站的地址链接,因此,利用蜘蛛系统,不仅可以很快将一个网站的全部网页都访问一遍,而且还可以利用那些其他网站地址链接爬行到新的网站,并获取新网站的网页内容本文档来自技高网...

【技术保护点】
一种用于半封闭数据环境下的数据搜索方法,其特征在于,包括:构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址;所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件;根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。

【技术特征摘要】
1.一种用于半封闭数据环境下的数据搜索方法,其特征在于,包括: 构建一个客户端浏览器,通过该浏览器,使用预设登录信息登录访问所述半封闭数据环境的网络访问地址; 所述客户端浏览器在登录成功后对所述半封闭数据环境中的预设网页地址进行访问,并获取从所述半封闭数据环境的服务器返回的对应网页的数据文件; 根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来。2.如权利要求1所述的方法,其特征在于,所述根据预设的与所述网页相对应的数据位置信息,从所述数据文件中将相应位置的数据提取出来的步骤,包括: 对通过所述客户端浏览器访问获得的网页数据文件进行分析,根据预设的与在所述网页中要获取的数据相对应的文件标签信息,在所述数据文件中定位相匹配的标签的位置; 根据所述标签位置,将与该标签位置相对应的数据提取出来。3.如权利要求2所述的方法,其特征在于,所述将与该标签位置相对应的数据提取出来的步骤,包括:运行与该标签位置相对应的脚本数据,并将运行结果数据提取出来。4.如权利要求2所述的方法,其特征在于,进一步包括:构建一数据库,记录所述半封闭数据环境的网络访问地址、可登录该数据环境的预设登录信息、在该数据环境中需要访问的网页地址,以及与在所述网页中要获取的数据相对应的文件标签信息。5.如权利要求1所述的方法,其特征在于,所述客户端浏览器在登录成功后,进一步包括:获取由所述半封闭数据环境的服务器分配的会话令牌,并携带该会话令牌对所述半封闭...

【专利技术属性】
技术研发人员:张士益
申请(专利权)人:张士益
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1