本发明专利技术涉及一种在线更新兴趣信息的采集方法,主要由建立兴趣信息网址库、兴趣点挖掘、信息发布三个方法步骤完成;兴趣点挖掘中采用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容。本发明专利技术使订阅者在不进行海量网址搜索的情况下,实时掌握感兴趣的WEB信息,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。
【技术实现步骤摘要】
本专利技术涉及一种在线信息实时获取技术,具体地说是一种对在线更新兴趣信息的采集方法。
技术介绍
随着信息化技术的发展,Web正在改变着各种业务领域,它涉及新闻、广告、消费、金融管理、教育、政府、电子商务及其它信息服务。Web包含了丰富和动态的超链接信息以及Web页面的访问和使用信息,为广大使用者提供了丰富的资源。如何提取关注的、感兴趣的信息,成为各行各业关注的热点,同时有效地信息采集以及发布方式,成为助推web信息挖掘的关键。比如,在各行业工程建设或采购中,招投标工作十分重要,然而招投标信息分散在各个单位的门户网站上或各地方政府的网站上,使得招投标工作在获取实时信息时复杂而繁琐。·
技术实现思路
本专利技术的目的在于,提供一种能有效帮助企业和个人实时准确的获取到招投标信息的在线内容更新的采集方法,提高工作效率。本专利技术是这样实现的本专利技术所提供的采集方法,主要包括三大步骤步骤I,建立兴趣信息(招标信息)网址库;采集行业领域的感兴趣web网址,形成网址库。步骤2,兴趣点挖掘;通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息。其步骤是I)判断网址的编码方式,若为GBK格式的网址,利用网址重定向技术将GBK编码的网址转化为Punycode编码;2)判断网页的编码方式从而获取相应网址的网页源代码;3)过滤掉与更新内容无关的信息,如格式控制符等;4)判断是否为第一次获取该网页的源代码若是第一次获取,将过滤过的网页信息直接保存到数据库;若不是第一次获取网页,利用字符串对比算法,将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,获取到网页更新的内容;5)在更新的内容中搜索兴趣点。步骤3,信息发布将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。上述步骤2之兴趣点挖掘中的字符串对比算法,此算法将最新时刻的网页内容与上一时刻的网页做对比,从而获取网页一处或多处更新的内容,而忽略上一时刻的网页比最新时刻的网页多出的内容。在这个算法中,可以人工设定m为获取更新字符串的最短长度(精度),而在网页更新内容有多处的情况下,人工设定ml为两更新内容之间允许的最长的与上一时刻相同的字符串。本专利技术的有益效果是使订阅者在不进行海量网址搜索的情况下实时掌握感兴趣的WEB信息,如,若应用到招投标信息采集系统中,可提高招投标工作的效率,减少投标企业进行招投标进行信息搜索时的工作量,使更多的优秀供应商参与到招投标工作中来,使招投标工作更加公正、公开、透明。附图说明图I为本专利技术网页更新内容采集的方法的总流程示意图;图2为本专利技术网页更新内容采集的方法之兴趣点挖掘的流程图; 图3为网页更新内容的字符串对比算法示意图。具体实施例方式为使本专利技术的目的、技术方案和优点更加清楚,以招标信息为例,下面结合附图和实施例对本专利技术作进一步的描述。图I显示了本实施例采集的方法的流程本实施例提供了一种由于在线内容更新而触发的二次发布方法,包括建立兴趣信息网址库、兴趣点挖掘、信息发布。在定时获取网址库中的所有网址的网页内容后,与存储在数据库中的网页内容对比,获取到更新的网页内容S9,在更新的内容中挖掘兴趣点信息,如果有兴趣信息,则二次发布给订阅者。具体步骤如下所述(一 )建立兴趣信息网址库采集行业领域的感兴趣web网址,一般是信息列表页的网址,存储在数据库中。( 二)兴趣点挖掘(三)信息发布若在上述步骤中搜索到客户感兴趣招标信息,则将招标信息重新编辑,然后通过短信、邮件、WEB发布等方式将编辑好的招标信息实时分发给订阅者。图2显示了本实施例之兴趣点挖掘流程I)中文网址的处理S3利用网址重定向技术将含有GBK编码文字的网址S2的页面嵌套到Punycode编码的网址的页面中或将英文网址(Punycode编码)I的网址跳转到需采集的含有GBK编码文字的网址。2)获取网页的编码方式S4逐行读取Punycode编码的英文网址SI,使用webclient或HttpWebRequest获取网址页面的编码方式。3)通过网页内容的编码分类处理获取网页源代码S5网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码4)网页源代码的过滤S6过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。5)新旧网页字符串的对比S8判断是否为第一次获取网页源代码S7 :若不是第一次获取,利用字符串对比算法(如图2所示)将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容S9 ;若是第一次获取网页源代码,则网页的全部汉字内容S10。6)在新增内容中查找客户感兴趣的关键词Sll (如床上用品、服装等)。图3显示本实施例之网页更新内容的字符串对比算法,此算法将最新时刻的网页内容与上一时刻的网页做对比,从而获取网页一处或多处更新的内容,而忽略上一时刻的网页比最新时刻的网页多出的内容。在这个算法中,可以人工设定m为获取更新字符串的最短长度(精度),而在网页更新内容有多处的情况下,ml为两更新内容之间允许的最长的与上一时刻相同的字符串。其具体步骤如下所述S21 :定义网页的最新时刻的内容为字符串a□,上一时刻的内容为字符串b□,变量s为存储字符串a的位置,变量Si为存储字符串b的位 置;S22 :判断字符a与字符b是否相等,若相等跳到步骤S23,若不相等跳到步骤 S25 ;S23 :判断i+l、j+l是否小于字符串a的长度,若小于跳到步骤S24,若大于则跳到步骤S37 ;S24 :字符串a口、b 口的下标i、j自加I ;S25 :将字符串a与字符b是否不相等,若不相等跳到步骤S27,若相等跳到步骤S31 ;S27 :判断i+Ι是否小于字符串a的下标i自加I ;S29 :字符串b 的长度,若小于跳到步骤S26,若大于则结束;S31 :判断字符串a的下标i与变量s是否相等,若相等跳到步骤S22,若不相等跳到步骤S32 ;S32 :将字符串b与字符b是否相等,若相等跳到步骤S35,若不相等跳到步骤 S39 ;S35 :判断i+l、j+l是否小于字符串a的长度,若小于跳到步骤S36,若大于则跳到步骤S37 ;S36 :字符串a口、b的长度,若不等于则跳到步骤S38,,保存新增字符串,若等于则结束;S38 :将更新的内容添加至更新字符串中;S39 :判断j-sl是否小于ml,若小于跳到步骤S40,若大于则跳到步骤S26 ;S40 :判断i-s是否小于m,若小于跳到步骤S26,若大于则跳到步骤S41,并将更新的内容添加至更新字符串中;S41 :将变量Si的值赋给j ; S42 :结束。权利要求1.,其特征在于,包括三个方法步骤 步骤I,建立兴趣信息网址库; 步骤2,兴趣点挖掘 通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是 1)中文网址的处理(S3) 利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(SI)的网址跳转到需采集的含有GBK编码文字的网址; 2)获取网页的编码方式(S4) 逐行读取Punycode编码的英文网址(SI),使本文档来自技高网...
【技术保护点】
一种在线更新兴趣信息的采集方法,其特征在于,包括三个方法步骤:步骤1,建立兴趣信息网址库;步骤2,兴趣点挖掘:通过网页源码分析,对网址库中的各类网址进行动态检测,获取其更新信息,其步骤是:1)中文网址的处理(S3)利用网址重定向技术将含有GBK编码文字的网址(S2)的页面嵌套到Punycode编码的网址的页面中或将英文网址Punycode编码(S1)的网址跳转到需采集的含有GBK编码文字的网址;2)获取网页的编码方式(S4)逐行读取Punycode编码的英文网址(S1),使用webclient或HttpWebRequest获取网址页面的编码方式;3)通过网页内容的编码分类处理获取网页源代码(S5)网页内容有UTF8、GB2312等多种编码,判断网页的编码方式后获取网页源代码4)网页源代码的过滤(S6)过滤掉格式控制符等无用信息和非汉字字符得到页面的汉字内容。5)新旧网页字符串的对比(S8)判断是否为第一次获取网页源代码(S7):若不是第一次获取,利用字符串对比算法将过滤过的网页信息与存储在数据库中的更新前的网页信息作对比,内容相同的忽略,内容不同的记录下来;当新网页的内容比旧网页内容多出m个字符时保存更新内容(S9);若是第一次获取网页源代码,则网页的全部汉字内容(S10)。6)在新增内容中查找客户感兴趣的关键词(S11);步骤3,信息发布:将更新的兴趣点信息重新编辑后,通过短信、邮件等方式实时地分发给订阅者。...
【技术特征摘要】
【专利技术属性】
技术研发人员:万金朋,
申请(专利权)人:万金朋,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。