一种提供招投标信息搜索服务的方法和装置制造方法及图纸

技术编号:13323408 阅读:47 留言:0更新日期:2016-07-11 10:22
本发明专利技术公开了一种提供招投标信息搜索服务的方法和装置。其中所述方法包括:从互联网中爬取招投标信息源数据保存到第一数据库中;从第一数据库中的源数据中提取关键数据保存到第二数据库中;接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。该技术方案通过分析算法,对招投标的网页信息进行数据挖掘,大大提高了搜索的召回率和准确率,解决了投标人在寻找项目机会中费时费力,效率较差的问题,通过抓取关键数据信息提供搜索选项,提高了搜索质量,大大提高了投标人的工作效率。

【技术实现步骤摘要】

本专利技术涉及招投标领域,特别涉及一种提供招投标信息搜索服务的方法和装置
技术介绍
信息化的发展带来了招投标领域的新局面,原来投标人主要通过期刊杂志获取项目招投标信息的方式转变成了通过互联网网站来获取适合自己投标的信息。投标人的一种做法是登录各地的各个招投标网站来获取信息,然后通过人工的方式一个个检索并排查需要的信息。另外一种更加高效的做法是登录一些大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息。然而,这种方式耗时耗力,同时招投标网站的自带搜索也不能保证质量,这就造成了错误或者遗漏了重要信息。而通过登录大型的招投标信息网站,通过全文检索的方式去搜索需要的招投标信息,也由于采用了模糊匹配算法,匹配的质量不高,造成的搜索出的无效数据大于有效数据,更可怕的是遗漏了更多的有价值信息。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的一种提供招投标信息搜索服务的方法和装置。依据本专利技术的一个方面,提供了一种提供招投标信息搜索服务的方法,包括:从互联网中爬取招投标信息源数据保存到第一数据库中;从第一数据库中的源数据中提取关键数据保存到第二数据库中;接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。可选地,所述招投标信息源数据为网页源代码。可选地,所述从第一数据库中的源数据中提取关键数据保存到第二数据库中包括如下中的一种或多种:从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串匹配/前缀匹配第一指定字符或第一指定字符串;从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定字符串;从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第六指定字符或第六指定字符串;从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指定字符或第七指定字符串;从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或第八指定字符串;从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或第九指定字符串;从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符或第十指定字符串。可选地,所述从第一数据库中的源数据中提取关键数据保存到第二数据库中进一步包括:对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数据库中;每种关键元数据使用对应的校验逻辑进行校验;当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提取的关键元数据不大于当前日期;当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第一指定集合中;当提取的关键元数据为招标代理关键元数据时,和/或当提取的关键元数据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符为“公司”;当提取的关键元数据为投资金额关键元数据时,和/或当提取的关键元数据为第一/二/三中标价关键元数据时,和/或当提取的关键元数据为中标价关键元数据时,采用的校验逻辑为:提取的关键元数据为数字;当提取的关键元数据为第一/二/三中标候选人时,和/或当提取的关键元数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀字符在第二指定集合中。可选地,所述方法进一步包括:将源数据所在的原始网址对应保存到第一数据库中;当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应的页面。依据本专利技术的另一方面,提供了一种提供招投标信息搜索服务的装置,包括:源数据爬取单元,适于从互联网中爬取招投标信息源数据保存到第一数据库中;关键数据提取单元,适于从第一数据库中的源数据中提取关键数据保存到第二数据库中;查询单元,适于接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库;展示单元,适于在存在匹配项时,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。可选地,所述招投标信息源数据为网页源代码。可选地,所述关键数据提取单元,适于执行如下中的一种或多种从第一数据库中的源数据中提取关键数据保存到第二数据库中的步骤:从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容content部分的尾部,和/或字符串前缀匹配第一指定字符或第一指定字符串;从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或第二指定字符串;从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符或第三指定字符串;从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为投资金额关键元数据;其中第四预设本文档来自技高网...

【技术保护点】
一种提供招投标信息搜索服务的方法,其特征在于,所述方法包括:从互联网中爬取招投标信息源数据保存到第一数据库中;从第一数据库中的源数据中提取关键数据保存到第二数据库中;接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关键数据进行展示。

【技术特征摘要】
1.一种提供招投标信息搜索服务的方法,其特征在于,所述方法包括:
从互联网中爬取招投标信息源数据保存到第一数据库中;
从第一数据库中的源数据中提取关键数据保存到第二数据库中;
接收招投标信息查询请求,根据查询请求中的关键字查询所述第二数据
库,如果存在匹配项,根据该匹配从第二数据库中获取相应的一个或多个关
键数据进行展示。
2.如权利要求1所述的方法,其特征在于,所述招投标信息源数据为网
页源代码。
3.如权利要求2所述的方法,其特征在于,所述从第一数据库中的源数
据中提取关键数据保存到第二数据库中包括如下中的一种或多种:
从第一数据库中的网页源代码中,提取符合第一预设逻辑的字符串作为
发布日期关键元数据;其中第一预设逻辑为:字符串位于网页源代码中内容
content部分的尾部,和/或字符串匹配/前缀匹配第一指定字符或第一指定字
符串;
从第一数据库中的网页源代码中,提取符合第二预设逻辑的字符串作为
招标人关键元数据;其中第二预设逻辑为:字符串前缀匹配第二指定字符或
第二指定字符串;
从第一数据库中的网页源代码中,提取符合第三预设逻辑的字符串作为
招标代理关键元数据;其中第三预设逻辑为:字符串前缀匹配第三指定字符
或第三指定字符串;
从第一数据库中的网页源代码中,提取符合第四预设逻辑的字符串作为
投资金额关键元数据;其中第四预设逻辑为:字符串前缀匹配第四指定字符
或第四指定字符串,和/或,字符串位于网页源代码中content部分中的表格
table部分且该table部分的表头部分的字符串匹配第五指定字符或第五指定
字符串;
从第一数据库中的网页源代码中,提取符合第五预设逻辑的字符串作为
第一/二/三中标候选人关键元数据;其中第五预设逻辑为:字符串位于网页
源代码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第
六指定字符或第六指定字符串;
从第一数据库中的网页源代码中,提取符合第六预设逻辑的字符串作为
第一/二/三中标价关键元数据;其中第六预设逻辑为:字符串位于网页源代
码中内容部分中的table部分,且字符串对应的表格的行/列名称匹配第七指
定字符或第七指定字符串;
从第一数据库中的网页源代码中,提取符合第七预设逻辑的字符串作为
中标人关键元数据;其中第七预设逻辑为:字符串前缀匹配第八指定字符或
第八指定字符串;
从第一数据库中的网页源代码中,提取符合第八预设逻辑的字符串作为
中标价关键元数据;其中第八预设逻辑为:字符串前缀匹配第九指定字符或
第九指定字符串;
从第一数据库中的网页源代码中,提取符合第九预设逻辑的字符串作为
企业名称关键元数据;其中第九预设逻辑为:字符串前缀匹配第十指定字符
或第十指定字符串。
4.如权利要求3所述的方法,其特征在于,所述从第一数据库中的源数
据中提取关键数据保存到第二数据库中进一步包括:
对提取的关键元数据进行校验,将通过校验的关键元数据保存到第二数
据库中;每种关键元数据使用对应的校验逻辑进行校验;
当提取的关键元数据为发布日期关键元数据时,采用的校验逻辑为:提
取的关键元数据不大于当前日期;
当提取的关键元数据为招标人关键元数据时,采用的校验逻辑为:提取
的关键元数据的后缀字符在第一指定集合中;
当提取的关键元数据为招标代理关键元数据时,和/或当提取的关键元数
据为企业名称关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀
字符为“公司”;
当提取的关键元数据为投资金额关键元数据时,和/或当提取的关键元数
据为第一/二/三中标价关键元数据时,和/或当提取的关键元数据为中标价关
键元数据时,采用的校验逻辑为:提取的关键元数据为数字;
当提取的关键元数据为第一/二/三中标候选人时,和/或当提取的关键元
数据为中标人关键元数据时,采用的校验逻辑为:提取的关键元数据的后缀

\t字符在第二指定集合中。
5.如权利要求1-4中任一项所述的方法,其特征在于,所述方法进一步
包括:
将源数据所在的原始网址对应保存到第一数据库中;
当用接收用户的跳转到原始网址的请求时,跳转到对应的原始网址对应
的页面。
6.一种提供招投标信息搜索服务的装置,其特征...

【专利技术属性】
技术研发人员:庞宇科
申请(专利权)人:江苏国泰新点软件有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1