一种范文网页数据库的优化方法和装置制造方法及图纸

技术编号:9825693 阅读:81 留言:0更新日期:2014-04-01 13:44
本发明专利技术提供了一种范文网页数据库的优化方法,包括:获取用户的检索请求;根据所述检索请求中携带的关键词,判断所述检索请求是否属于范文检索请求;如果是,检测用户在检索结果页中对结果网页的交互反馈,根据所述交互反馈提取对应的结果网页中的范文数据;将所述关键词、所述结果网页中的范文数据及结果网页URL作为新增数据项添加到范文网页数据库中。根据本发明专利技术所述方法,提供了一种及时补充范文网页数据库的机制,不断扩充数据库内容以满足更多用户的需求,提升召回率。另外,本发明专利技术还提供了一种相应的优化装置。

【技术实现步骤摘要】
【专利摘要】本专利技术提供了一种范文网页数据库的优化方法,包括:获取用户的检索请求;根据所述检索请求中携带的关键词,判断所述检索请求是否属于范文检索请求;如果是,检测用户在检索结果页中对结果网页的交互反馈,根据所述交互反馈提取对应的结果网页中的范文数据;将所述关键词、所述结果网页中的范文数据及结果网页URL作为新增数据项添加到范文网页数据库中。根据本专利技术所述方法,提供了一种及时补充范文网页数据库的机制,不断扩充数据库内容以满足更多用户的需求,提升召回率。另外,本专利技术还提供了一种相应的优化装置。【专利说明】一种范文网页数据库的优化方法和装置
本专利技术涉及互联网搜索领域,特别是涉及一种用于范文搜索的范文网页数据库的优化方法和装置。
技术介绍
范文搜索是网页搜索中一种很重要的需求,被搜索的范文类型众多,包括但不限于各类公文、文秘书信、工作计划、总结报告、心得体会、演讲致辞、作文作业、各种论文等等。在例如学生非放假期间、年底工作总结期间的高峰期,每天可以占到总网页搜索量的1%左右。实际中,大多数范文需求对于字数都有固定要求,因而很多用户都会在进行范文搜索时输入字数,如“读后感400字”、“奖学金申请书800字”等。即使在搜索时没有明确将字数输入,也会存在有对于该范文字数的潜在要求;例如,论文类的范文一般不低于8000字;入党申请书类的范文一般要求有3000?5000字,等等。对于范文搜索,目前存在的问题主要有两个:一是当前检索机制只能通过标题、网页内容匹配来命中字数的需求,对于没有相关字数的网页排序不公平;由于找不到相应的字数的字段,也使得召回率不足;二是在目前检索结果的标题摘要下,用户只能通过相应字段飘红来判定是否是自己想要的信息,对于很多有欺骗性质的页面、字数是否满足要求等都是没有预期的。图1示出了当前范文搜索的搜索结果页示意图,用户输入的范文搜索请求是“以家为题的作文350字”;在搜索结果页中,除了第一条结果的标题摘要直接命中350字外,其它结果都不知道有多少字数,只能将“350字”这个关键词丢弃来进行排序,对于一些潜在与350字非常接近的结果来说就显得非常不公平;用户也不知道什么结果是好结果,只能逐个点击查看,效率比较低下。
技术实现思路
鉴于上述问题,提出了本专利技术以便提供一种克服上述问题或者至少部分地解决上述问题的用于范文搜索的范文网页数据库的优化方法和相应的装置。依据本专利技术的一个方面,提供了一种范文网页数据库的优化方法,包括:获取用户的检索请求;根据所述检索请求中携带的关键词,判断所述检索请求是否属于范文检索请求;如果是,检测用户在检索结果页中对结果网页的交互反馈,根据所述交互反馈提取对应的结果网页中的范文数据;将所述关键词、所述结果网页中的范文数据及结果网页URL作为新增数据项添加到范文网页数据库中。可选地,添加步骤包括:判断结果网页URL是否包含在范文网页数据库的现有范文网页数据项中;如果是,则不添加所述新增数据项;如果否,则添加所述新增数据项。可选地,新增数据项中的关键词对应于范文网页数据项的范文类型;其中添加步骤包括:在范文网页数据库中,确定与新增数据项具有相同范文类型的现有范文网页数据项的项数;如所述项数小于预定数量,则添加所述新增数据项;如所述项数大于或等于预定数量,则不添加所述新增数据项。可选地,被提取的结果网页是问答社区网页,包括提出问题的主楼块和回答问题的次楼块;其中提取范文数据的步骤包括:将所述关键词与网页主楼块的文字内容进行匹配;如匹配,判断次楼块的文字内容的字数是否大于预定阈值;如果是,确定字数大于预定阈值的次楼块为待提取次楼块;且提取该结果网页的范文数据;其中所述范文数据包括:待提取次楼块的文字内容的标题,待提取次楼块的文字内容的正文,待提取次楼块的文字内容的字数。可选地,确定待提取次楼块的步骤还包括:根据所述关键词确定元关键词;将所述元关键词与字数大于预定阈值的次楼块的文字内容进行匹配;如匹配,确定匹配的次楼块为待提取次楼块。可选地,所述网页中待提取次楼块为多个,则所述网页对应的范文网页数据项包括与待提取次楼块数量相应的多个范文数据。可选地,被提取的结果网页是文字网站网页,其网页包括正文标题和正文内容;其中提取范文数据的步骤包括:将所述关键词与正文标题进行匹配;如匹配,提取该结果网页的范文数据;其中所述范文数据包括:正文标题,正文内容,和正文内容的字数。可选地,被提取的结果网页是文库资源网站网页,其网页包括范文文档的URL资源链接和描述对应范文文档的文字内容;其中提取范文数据的步骤包括:将所述关键词与描述对应范文文档的文字内容进行匹配;如匹配,经由所述URL资源链接下载所述范文文档;提取该网页的范文数据;其中所述范文数据包括:描述范文文档的文字内容,和所述范文文档。根据本专利技术的另一方面,提供了一种范文网页数据库的优化装置,包括:请求获取单元,适于获取用户的检索请求;请求判断单元,适于根据所述检索请求中携带的关键词,判断所述检索请求是否属于范文检索请求;范文数据单元,适于检测用户在检索结果页中对结果网页的交互反馈,并根据所述交互反馈提取对应的结果网页中的范文数据;数据添加单元,适于将所述关键词、所述结果网页中的范文数据及结果网页URL作为新增数据项添加到范文网页数据库中。可选地,数据添加单元还适于:判断结果网页URL是否包含在范文网页数据库的现有范文网页数据项中;如果是,则不添加所述新增数据项;如果否,则添加所述新增数据项。可选地,新增数据项中的关键词对应于范文网页数据项的范文类型;其中数据添加单元还适于:在范文网页数据库中,确定与新增数据项具有相同范文类型的现有范文网页数据项的项数;如所述项数小于预定数量,则添加所述新增数据项;如所述项数大于或等于预定数量,则不添加所述新增数据项。可选地,被提取的结果网页是问答社区网页,包括提出问题的主楼块和回答问题的次楼块;其中范文数据单元还包括:匹配单元,适于将所述关键词与网页主楼块的文字内容进行匹配;次楼块确定单元,适于如匹配,判断次楼块的文字内容的字数是否大于预定阈值;如果是,确定字数大于预定阈值的次楼块为待提取次楼块;以及提取单元,适于提取该结果网页的范文数据;其中所述范文数据包括:待提取次楼块的文字内容的标题,待提取次楼块的文字内容的正文,待提取次楼块的文字内容的字数。可选地,次楼块确定单元还适于:根据所述关键词确定元关键词;将所述元关键词与字数大于预定阈值的次楼块的文字内容进行匹配;如匹配,确定匹配的次楼块为待提取次楼块。可选地,所述网页中待提取次楼块为多个,则所述网页对应的范文网页数据项包括与待提取次楼块数量相应的多个范文数据。可选地,被提取的结果网页是文字网站网页,其网页包括正文标题和正文内容;其中范文数据单元还包括:匹配单元,适于将所述关键词与正文标题进行匹配;提取单元,适于如匹配,提取该结果网页的范文数据;其中所述范文数据包括:正文标题,正文内容,和正文内容的字数。可选地,被提取的结果网页是文库资源网站网页,其网页包括范文文档的URL资源链接和描述对应范文文档的文字内容;其中范文数据单元还包括:匹配单元,适于将所述关键词与描述对应范文文档的文字内容进行匹配;下载单元,适于如匹配,经由所述URL资源链本文档来自技高网
...

【技术保护点】
一种范文网页数据库的优化方法,包括:获取用户的检索请求;根据所述检索请求中携带的关键词,判断所述检索请求是否属于范文检索请求;如果是,检测用户在检索结果页中对结果网页的交互反馈,根据所述交互反馈提取对应的结果网页中的范文数据;将所述关键词、所述结果网页中的范文数据及结果网页URL作为新增数据项添加到范文网页数据库中。

【技术特征摘要】

【专利技术属性】
技术研发人员:侯小虎
申请(专利权)人:北京奇虎科技有限公司 奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1