一种网址导航的方法和系统技术方案

技术编号:2830678 阅读:202 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供了一种生成导航数据库的方法,以及利用该导航数据库完成网址导航的解决方案。所述生成导航数据库的方法包括:分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库。本发明专利技术通过对搜索日志信息的分析处理,可以高效的获取大规模的导航数据,比现有的人工收集更方便快捷,并且数据更宽泛。总之,本发明专利技术可以方便快捷的获取比较准确的、大规模的导航数据库,进而为用户提供更好的网址导航服务。

【技术实现步骤摘要】

本专利技术涉及互联网信息处理
,特别是涉及一种网址导航的方法和 系统。
技术介绍
目前随着互联网技术应用的越来越广泛,人们4艮多的日常工作和娱乐都在 网络上进行,从而产生了众多的互联网网页和海量的网络资源信息,以及提供 各种信息服务的网站,用户一般需要通过网址找到这些信息,但是人们是无法 记忆或者知悉成千上万的网址的,并且,网址也没有很好的规律便于用户记忆,因此,现有技术提出了网址导航的解决方案,例如,hao123网址之家这样的 网址导4元网站。hao123作为网址导航网站,其向用户呈现了数千个常用的网址,并进行 了分类排序等^更于用户查找的进一步处理,从而可以方便用户进入自己所需的 网站。但是现有技术中的网址导航数据主要都是通过人工收集和整理的,该方式 成本太高,速度慢,并且难以收集更大量的网站,^b啦形成大规模的数据。总之,需要本领域技术人员迫切解决的一个技术问题就是如何能够提供 一种更加高效便捷的网址导航技术解决方案。
技术实现思路
本专利技术所要解决的技术问题是提供一种生成导航数据库的方法和系统,以 及利用该导航数据库进行网址导航的方法和装置,能够非常方便的通过计算机 自动发现导航数据,成本低廉、收集效率高,适于收集大规模的导航数据,进 而向用户提供更准确、范围更广泛的网址导航服务。为了解决上述问题,本专利技术公开了一种生成导航数据库的方法,包括分 析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址; 所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取 针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库。优选的,所述依据信息查询词获得描述信息的步骤可以进一步包括获取 所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主 题名称、以及相应的用户查询词,获取针对所述网址的描述信息。 优选的,所述描述信息还包括点击频率。 优选的,所述网址和相应的关键词采用倒排表的数据结构。 优选的,所述的方法还可以包括按照点击频率,对关4定词指向的网址进 行排序。优选的,所述的方法还可以包括依据所述搜索日志信息对所述描述信息 和网址进行校验的步骤,所述校验包括去除针对该关键词的点击频率小于或 等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一 定阈值的关键词。依据本专利技术的另一实施例,还公开了一种网址导航的方法,可以包括分 析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址; 所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取 针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相 应的描述信息,建立导航数据库;接收用户的网址查询词,检索所述导航数据 库,向用户返回相应的网址结果集。优选的,所述依据信息查询词获得描述信息的步骤进一步包括获取所述 网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名 称、以及相应的用户查询词,获取针对所述网址的描述信息。 优选的,所述描述信息还包括点击频率。 优选的,所述网址和相应的关键词釆用倒排表的数据结构。 优选的,所述的方法还可以包括按照点击频率,对关键词指向的网址进 行排序。优选的,所述的方法还可以包括依据所述搜索日志信息对所述描述信息 和网址进行校验的步骤;所述校验包括去除针对该关键词的点击频率小于或 等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一 定阈值的关键词。优选的,所述的方法还可以包括采集与导航数据相关的权重参数;以及, 利用所述权重参数修正导航数据的匹配程度和/或排序情况。依据本专利技术的另一优选实施例,还公开了一种生成导航数据库的系统,可 以包括以下部件曰志分析单元,用于分析搜索日志信息,获取在一信息查询词下,用户点 击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;描述信息获取单元,用于依据信息查询词获取针对所述网址的描述信息; 所述描述信息包括关键词;数据库生成单元,用于依据所获得的网址和相应的描述信息,建立导航数 据库。优选的,所述描述信息获取单元可以进一步包括相关信息获取子模块, 用于获取所述网址相应的锚文本和/或相应的主题名称;分析子沖莫块,用于分 析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述 网址的描述信息。优选的,所述描述信息还包括点击频率。 优选的,所述网址和相应的关4定词采用倒排表的数据结构。 优选的,所述系统还可以包括排序模块,用于按照点击频率,对关键词 指向的网址进行排序。优选的,所述系统还可以包括校验模块,用于依据所述搜索日志信息对 所述描述信息和网址进行校验;所述校验包括去除针对该关键词的点击频率 小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或 等于一定阈值的关键词。依据本专利技术的另一优选实施例,还公开了一种网址导航的系统,包括 导航数据库,所述导航数据库存储有网址和相应的描述信息;所述网址包 括在一信息查询词下,用户点击频率符合预置条件的网址;所述信息查询词和 相应的用户点击频率通过分析搜索日志信息而获取;所述描述信息依据对信息 查询词的分析而获得;导航接口单元,用于接收用户的网址查询词,以及展示相应的网址结果集;导航检索单元,用于依据用户的网址查询词检索所述导航数据库,返回相 应的网址结果集。优选的,可以通过以下方式获取所述描述信息获:f又所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针对所述网址的描述信息。 优选的,所述描述信息还包括点击频率。 优选的,所述网址和相应的关键词采用倒排表的数据结构。 优选的,在所述倒排表数据结构中, 一关4建词指向的多个网址是按照在该关键词下的点击频率进行排序的。优选的,所述描述信息和网址是经过所述搜索日志信息校验的;所述校验的方式包括去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关4建词。优选的,所述的系统还可以包括用户参数获取模块,用于获取与导航数据相关的权重参数;权重调整模块,用于利用所述权重参数修正导航数据的匹配程度和/或排序情况。与现有技术相比,本专利技术具有以下优点本专利技术通过对搜索日志信息的分析处理,可以高效的获取大规模的导航数 据,比现有的人工收集更方i更快捷,并且数据更宽泛。其次,本专利技术在对搜索日志信息的分析处理中还引入了锚文本、主题名称 等其他相关信息,以便进一步校正或修正分析结果,从而获取更为准确的导航 数据。总之,本专利技术可以方便快捷的获取比较准确的、大规模的导航数据库, 进而为用户提供更好的网址导航服务。附图说明图1是本专利技术一种生成导航数据库的方法实施例1的步骤流程图; 图2是本专利技术一种生成导航数据库的方法实施例2的步骤流程图; 图3是本专利技术一种生成导航数据库的方法实施例3的步骤流程图; 图4是本专利技术一种网址导航的方法实施例的步骤流程图; 图5是本专利技术一种生成导航数据库的系统实施例的结构框图6是本专利技术一种网址导航的系统实施例的结构框图。 具体实施例方式为使本专利技术的上述目的、特征和优点能够更加本文档来自技高网...

【技术保护点】
一种生成导航数据库的方法,其特征在于,包括:    分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;    依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;    依据所获得的网址和相应的描述信息,建立导航数据库。

【技术特征摘要】
1、一种生成导航数据库的方法,其特征在于,包括分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的网址;所述搜索日志信息包括信息查询词及被用户点击的网址;依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库。2、 如权利要求l所述的方法,其特征在于,所述依据信息查询词获得描 述信息的步骤进一步包括获取所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针 对所述网址的描述信息。3、 如权利要求1或2所述的方法,其特征在于,所述描述信息还包括点 击频率。4、 如权利要求3所述的方法,其特征在于,所述网址和相应的关键词采 用倒排表的数据结构。5、 如权利要求4所述的方法,其特征在于,还包括按照点击频率,对 关键词指向的网址进行排序。6、 如权利要求3所述的方法,其特征在于,还包括依据所述搜索日志 信息对所述描述信息和网址进行校验的步骤,所述校验包括去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关4A词。7、 一种网址导航的方法,其特征在于,包括分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件 的网址;所述^t索日志信息包括信息查询词及^^皮用户点击的网址;依据信息查询词获取针对所述网址的描述信息;所述描述信息包括关键词;依据所获得的网址和相应的描述信息,建立导航数据库; 接收用户的网址查询词,4全索所述导4元数据库,向用户返回相应的网址结果集。8、 如权利要求7所述的方法,其特征在于,所述依据信息查询词获得描 述信息的步骤进一步包括获取所述网址相应的锚文本和/或相应的主题名称;分析所述网址的锚文本和/或主题名称、以及相应的用户查询词,获取针 对所述网址的描述信息。9、 如权利要求7或8所述的方法,其特征在于,所述描述信息还包括点 击频率。10、 如权利要求9所述的方法,其特征在于,所述网址和相应的关键词采 用倒排表的数据结构。11、 如权利要求10所述的方法,其特征在于,还包括按照点击频率, 对关键词指向的网址进行排序。12、 如权利要求9所述的方法,其特征在于,还包括依据所述搜索日志 信息对所述描述信息和网址进行校验的步骤;所述校验包括去除针对该关键词的点击频率小于或等于一定阈值的网址;和/或,去除在用户搜索查询中出现频率小于或等于一定阈值的关键词。13、 如权利要求7所述的方法,其特征在于,还包括 采集与导航数据相关的权重参数;利用所述权重参数修正导航数据的匹配程度和/或排序情况。14、 一种生成导航数据库的系统,其特征在于,包括 日志分析单元,用于分析搜索日志信息,获取在一信息查询词下,用户点击频率符合预置条件的...

【专利技术属性】
技术研发人员:张智敏茹立云
申请(专利权)人:北京搜狗科技发展有限公司
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1