一种提供聚合类型的智能摘要的方法和装置制造方法及图纸

技术编号:13180971 阅读:54 留言:0更新日期:2016-05-11 12:55
本发明专利技术提供了一种提供聚合类型的智能摘要的方法和装置,所述方法包括:对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取与用户查询词对应的搜索结果项;检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。该方法可以缩短用户信息寻找路径,改善用户的体验,有效的提高信息获取效率。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种提供聚合类型的智能摘要的方法和装置
技术介绍
随着互联网技术的不断发展,用户对于互联网信息的需求越来越高,搜索引擎成为用户获取互联网信息的重要工具。用户在搜索引擎对应应用中的搜索框中,输入查询词,即搜索关键词,由应用将搜索关键词发送给搜索引擎;而搜索引擎根据搜索关键词,在数据库中进行搜索,以获得与搜索关键词匹配的资源,以作为若干个搜索结果项,返回给应用进行输出。现有技术中,搜索结果项一般包括标题、页面URL以及摘要,其中,摘要为对搜索结果项对应页面的概括性描述。当用户使用搜索引擎进行搜索时,如果输入的查询词为泛词类型,即存在对应于查询词的多个页面内容,而非某一精确页面结果。该搜索结果项的普通摘要信息包括对搜索结果项指向落地页的概括性文字说明或缩略图。现有技术的缺点在于:I)用户需要点击搜索结果项并进入相应落地页,随后从落地页中再去寻找其所需要的内容,即用户从开始执行搜索行为到最终查找到其想要的内容至少需要执行两个步骤,查询路径偏长;因此导致用户操作不便且耗时较长,体验不佳;2)普通搜索结果项的摘要通常为概括性文字说明,一般无法直接向用户提供对搜索结果项对应页面具体内容的决策性意见。3)会增加应用与搜索引擎之间的数据交互,从而增加了搜索引擎的处理负担。
技术实现思路
为了解决现有技术中的上述问题,本专利技术提出了一种提供聚合类型的智能摘要的方法和装置。根据本专利技术的一个方面,提供了一种提供聚合类型的智能摘要的方法,包括:对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取与用户查询词对应的搜索结果项;检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。进一步的,所述对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;提取所述热门搜索结果项对应链接的热门落地页;检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。进一步的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。进一步的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。进一步的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。进一步的,所述平级图文列表字段包括以下一种或多种的组合:列表类型标记语言字段;统一资源定位符、标题信息相关联记录的多个标记语言字段;统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。根据本专利技术的另一方面,提供了一种提供聚合类型的智能摘要的装置,包括:聚类模块,用于对群体用户历史查询词进行聚类;结构化数据模板处理模块,用于对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取模块,用于获取与用户查询词对应的搜索结果项;检测模块,用于检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;生成模块,用于当检测模块的检测结果为“是”的时候,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。进一步的,所述聚类模块对群体用户历史查询词进行聚类,结构化数据模板处理模块对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理包括:根据对多个历史查询词基于热度信息进行排序的排序结果,选取排序靠前的预定数量的查询词进行聚合,得到聚合后的热门历史查询词;根据所述聚合后的热门历史查询词来确定相应的经排序的搜索结果项,并选取与每一聚合后的查询词相应的排序靠前的预定数量的搜索结果项作为热门搜索结果项;提取所述热门搜索结果项对应链接的热门落地页;检测所述热门搜索结果项对应链接的热门落地页中是否包含平级图文列表字段;如果是,则对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理。进一步的,所述对所述热门搜索结果项对应链接的热门落地页进行结构化数据模板处理,包括:首先生成与所述热门搜索结果项相匹配的列表摘要模板,然后根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理。进一步的,所述根据所述列表摘要模板对所述搜索结果项进行结构化数据模板处理,包括:提取所述热门搜索结果项对应链接的热门落地页的平级图文列表字段的数据信息;基于所述平级图文列表字段的数据信息,填充所述列表摘要模板,从而重新生成包含列表摘要信息的搜索结果项。进一步的,所述提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,包括:从所述重新生成的包含列表摘要信息的搜索结果项中提取与图片信息及标题信息相关联记录的标记语言字段作为摘要信息,重新生成包含所述摘要信息的搜索结果项。进一步的,所述平级图文列表字段包括以下一种或多种的组合:列表类型标记语言字段;统一资源定位符、标题信息相关联记录的多个标记语言字段;统一资源定位符、标题信息及图片信息相关联记录的多个标记语言字段。本专利技术的有益效果为:本专利技术提供了一种提供聚合类型的智能摘要的方法和装置,所述方法包括:对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取与用户查询词对应的搜索结果项;检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为当前第1页1 2 3 4 本文档来自技高网...

【技术保护点】
一种提供聚合类型的智能摘要的方法,其特征在于,包括:对群体用户历史查询词进行聚类,对聚类后的历史查询词的搜索结果项对应链接的落地页进行结构化数据模板处理;获取与用户查询词对应的搜索结果项;检测所述与用户查询词对应的搜索结果项对应链接的落地页是否为包含平级图文列表字段且进行过结构化数据模板处理的站点;如果是,则提取所述站点中图文列表字段中的图片信息及标题信息作为摘要信息,重新生成包含所述摘要信息的搜索结果项。

【技术特征摘要】

【专利技术属性】
技术研发人员:郑思晴吴凯
申请(专利权)人:北京奇虎科技有限公司奇智软件北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1