一种在线更新兴趣信息的采集方法技术

技术编号：8241555 阅读：191 留言：0更新日期：2013-01-24 22:28

本发明专利技术涉及一种在线更新兴趣信息的采集方法，主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成；兴趣点挖掘中采用字符串对比算法，将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比，获取到网页更新的内容。本发明专利技术使订阅者在不进行海量网址搜索的情况下，实时掌握感兴趣的WEB信息，减少投标企业进行招投标进行信息搜索时的工作量，使更多的优秀供应商参与到招投标工作中来，使招投标工作更加公正、公开、透明。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及一种在线信息实时获取技术，具体地说是一种对在线更新兴趣信息的采集方法。
技术介绍
随着信息化技术的发展，Web正在改变着各种业务领域，它涉及新闻、广告、消费、金融管理、教育、政府、电子商务及其它信息服务。Web包含了丰富和动态的超链接信息以及Web页面的访问和使用信息，为广大使用者提供了丰富的资源。如何提取关注的、感兴趣的信息，成为各行各业关注的热点，同时有效地信息采集以及发布方式，成为助推web信息挖掘的关键。比如，在各行业工程建设或采购中，招投标工作十分重要，然而招投标信息分散在各个单位的门户网站上或各地方政府的网站上，使得招投标工作在获取实时信息时复杂而繁琐。·
技术实现思路
本专利技术的目的在于，提供一种能有效帮助企业和个人实时准确的获取到招投标信息的在线内容更新的采集方法，提高工作效率。本专利技术是这样实现的本专利技术所提供的采集方法，主要包括三大步骤步骤I，建立兴趣信息(招标信息)网址库；采集行业领域的感兴趣web网址，形成网址库。步骤2，兴趣点挖掘；通过网页源码分析，对网址库中的各类网址进行动态检测，获取其更新信息。其步骤是I)判断网址的...

【技术保护点】
一种在线更新兴趣信息的采集方法，其特征在于，包括三个方法步骤：步骤1，建立兴趣信息网址库；步骤2，兴趣点挖掘：通过网页源码分析，对网址库中的各类网址进行动态检测，获取其更新信息，其步骤是：1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址；2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1)，使用webclient或HttpWebRequest获取网址页面的编码方式；3)通过网页内容的编码分类处理获取网页源代码(S...

【技术特征摘要】

【专利技术属性】
技术研发人员：万金朋，
申请(专利权)人：万金朋，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人