【技术实现步骤摘要】
本专利技术涉及一种在线信息实时获取技术,具体地说是一种对在线更新兴趣信息的采集方法。
技术介绍
随着信息化技术的发展,Web正在改变着各种业务领域,它涉及新闻、广告、消费、金融管理、教育、政府、电子商务及其它信息服务。Web包含了丰富和动态的超链接信息以及Web页面的访问和使用信息,为广大使用者提供了丰富的资源。如何提取关注的、感兴趣的信息,成为各行各业关注的热点,同时有效地信息采集以及发布方式,成为助推web信息挖掘的关键。比如,在各行业工程建设或采购中,招投标工作十分重要,然而招投标信息分散在各个单位的门户网站上或各地方政府的网站上,使得招投标工作在获取实时信息时复杂而繁琐。·
技术实现思路
本专利技术的目的在于,提供一种能有效帮助企业和个人实时准确的获取到招投标信息的在线内容更新的采集方法,提高工作效率。本专利技术是这样实现的本专利技术所提供的采集方法,主要包括三大步骤步骤I,建立兴趣信息(招标信息)网址库;采集行业领域的感兴趣web网址,形成网址库。步骤2,兴趣点挖掘;通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息。其步骤是I)判断网址的 ...
【技术保护点】
一种在线更新兴趣信息的采集方法,其特征在于,包括三个方法步骤:步骤1,建立兴趣信息网址库;步骤2,兴趣点挖掘:通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是:1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址;2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1),使用webclient或HttpWebRequest获取网址页面的编码方式;3)通过网页内容的编码分类处 ...
【技术特征摘要】
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。