一种建立范文网页数据库的方法和装置制造方法及图纸

技术编号:9852117 阅读:125 留言:0更新日期:2014-04-02 17:15
本发明专利技术提供了一种建立范文网页数据库的方法,包括:抓取网站的范文网页;根据关键词和与网站类型对应的提取规则,提取范文网页的范文数据;建立范文网页数据库;其中范文网页数据库包括多个范文网页数据项,所述范文网页数据项包括范文类型、范文网页的范文数据和范文网页对应的URL。对于包含了字数关键词的范文搜索请求,范文网页数据库能够提供更准确的检索结果,并使得在检索结果页中向用户提供相应范文字数成为可能,极大方便了用户对范文网页的选择。本发明专利技术还提供了一种建立范文网页数据库的装置。

【技术实现步骤摘要】
一种建立范文网页数据库的方法和装置
本专利技术涉及互联网搜索领域,特别是涉及一种建立用于范文搜索的范文网页数据库的方法和装置。
技术介绍
范文搜索是网页搜索中一种很重要的需求,被搜索的范文类型众多,包括但不限于各类公文、文秘书信、工作计划、总结报告、心得体会、演讲致辞、作文作业、各种论文等等。在例如学生非放假期间、年底工作总结期间的高峰期,每天可以占到总网页搜索量的1%左右。实际中,大多数范文需求对于字数都有固定要求,因而很多用户都会在进行范文搜索时输入字数,如“读后感400字”、“奖学金申请书800字”等。即使在搜索时没有明确将字数输入,也会存在有对于该范文字数的潜在要求;例如,论文类的范文一般不低于8000字;入党申请书类的范文一般要求有3000?5000字,等等。对于范文搜索,目前存在的问题主要有两个:一是当前检索机制只能通过标题、网页内容匹配来命中字数的需求,对于没有相关字数的网页排序不公平;由于找不到相应的字数的字段,也使得召回率不足;二是在目前检索结果的标题摘要下,用户只能通过相应字段飘红来判定是否是自己想要的信息,对于很多有欺骗性质的页面、字数是否满足要求等都是本文档来自技高网...
一种建立范文网页数据库的方法和装置

【技术保护点】
一种建立范文网页数据库的方法,包括:抓取网站的范文网页;根据关键词和与网站类型对应的提取规则,提取范文网页的范文数据;建立范文网页数据库;其中范文网页数据库包括多个范文网页数据项,所述范文网页数据项包括范文类型、范文网页的范文数据和范文网页对应的URL。

【技术特征摘要】
1.一种建立范文网页数据库的方法,包括: 抓取网站的范文网页; 根据关键词和与网站类型对应的提取规则,提取范文网页的范文数据; 建立范文网页数据库;其中 范文网页数据库包括多个范文网页数据项,所述范文网页数据项包括范文类型、范文网页的范文数据和范文网页对应的URL。2.根据权利要求1所述的方法,其中所述网站类型是问答社区网站,其网页包括提出问题的主楼块和回答问题的次楼块;与问答社区网站对应的提取规则包括: 将所述关键词与网页主楼块的文字内容进行匹配; 如匹配,判断次楼块的文字内容的字数是否大于预定阈值; 如果是,确定字数大于预定阈值的次楼块为待提取次楼块;且提取该网页的范文数据;其中所述范文数据包括:待提取次楼块的文字内容的标题,待提取次楼块的文字内容的正文,待提取次楼块的文字内容的字数。3.根据权利要求1或2所述的方法,确定待提取次楼块的步骤还包括: 根据所述关键词确定元关键词; 将所述元关键词与字数大于预定阈值的`次楼块的文字内容进行匹配; 如匹配,确定匹配的次楼块为待提取次楼块。4.根据权利要求1或2或3所述的方法,所述网页中待提取次楼块为多个,则所述网页对应的范文网页数据项包括与待提取次楼块数量相应的多个范文数据。5.根据权利要求1-4任一项所述的方法,其中所述网站类型是文字网站,其网页包括正文标题和正文内容;与文字网站对应的提取规则包括: 将所述关键词与正文标题进行匹配; 如匹配,提取该网页的范文数据;其中所述范文数据包括:正文标题,正文内容,和正文内容的字数。6.根...

【专利技术属性】
技术研发人员:侯小虎
申请(专利权)人:北京奇虎科技有限公司 奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1