一种网络关键资源页面的自动定位方法技术

技术编号：2918475 阅读：245 留言：0更新日期：2012-04-11 18:40

一种网络关键资源页面的自动定位方法，属于互联网信息处理领域，其特征在于：它首先从多家搜索引擎用户查询点击信息记录中筛选出具有时效性和代表性的查询主题词，提取出其对应的用户点击结果页面和结果页面的“用户点击率”，得到查询主题集合、关键资源页面候选集和“用户点击分布”；随后对多家搜索引擎的用户查询点击信息记录上得到的“用户点击分布”进行融合，利用“查询可信度”信息得到融合后的“用户点击分布”；最后根据融合后的“用户点击分布”对关键资源页面候选集中的页面进行判定，得到主题相关的关键资源页面。该方法具有计算机自动，准确客观和迅速定位的优点。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于互联网信息处理领域，特别是涉及一种基于用户行为分析、挖掘的网络关键资源页面定位的自动化处理方法。
技术介绍
搜索引擎是以一定的策略搜集互联网上的信息，在对信息进行组织和处理后为用户提供网络信息服务的计算机系统，它包括计算机网络、计算机硬件系统以及在硬件系统上运行的软件程序三个部分。它的主要作用是帮助用户快捷、高效的获取存在于互联网信息环境中的能够满足用户需求的高质量信息。目前，通用搜索引擎包含信息搜集、信息整理和用户查询三部分。搜索引擎通过被称为网络爬行器的工具进行信息搜索，用索引器对抓取的信息进行整理，进而使用查询器进行用户查询，并返回相关结果列表，提供相关信息以满足用户的查询需求。从使用者的角度看，搜索引擎提供一个包含搜索框的页面，用户在搜索框输入能反映自己查询需求的关键词，通过浏览器提交给搜索引擎后，搜索引擎返回和用户输入的内容相关的搜索结果信息列表，用户进行点击查找所需要的信息。网络关键资源页面可以理解为是关于查询主题权威可信，且对用户获取信息最有用的页面。根据文本检索会议TREC(Text Retrieval Conference)网络信息检索部分的权威定义，关键资源页面应当是某个关键站点的入口页面，此站点提供了关于某个主题的可靠信息(这里的入口页面不一定是通常意义上的“主页”，它可能是大规模站点的接入页面，也可能是某个子站点或者某一类页面集合的接入页面)。因此，关键资源页面之所以关键，是因为它提供给用户一个源于某个主题的可靠信息入口。用户通过关键资源页面，可以比较快捷的查找到所需要的信息。同时，某个主题的关键资源...

【技术保护点】
一种网络关键资源页面的自动定位方法，其特征在于该方法依次含有以下内容：步骤（１）．计算机按以下步骤在各个搜索引擎系统的搜索引擎用户日志上筛选查询主题：步骤（１．１）．数据预处理，其步骤如下：步骤（１．１．１）．计算机通过搜索引擎网络服务器搜索用户日志，并把该服务器记录的编码格式转换成国家标准汉字编码ＧＢＫ格式；步骤（１．１．２）．去除步骤（１．１．１）所述用户日志中除了下述内容项之外的信息，所述下述内容项包括：用户提交的查询Ｑｕｅｒｙ（以下简称Ｑ）、对应于这个查询用户点击的结果地址ＵＲＬ、以及由搜索引擎系统自动分配的用户标识号ＩＤ，并把得到的日志整理成包含以上内容项的字符串形式；步骤（１．１．３）．利用字符串匹配方法过滤步骤（１．１．２）得到的用户查询中的噪声信息，仅保留直接反映搜索引擎普通用户查询需求与行为的内容项；步骤（１．２）．挑选查询主题集合Ｓ，若：某个查询Ｑ在用户日志中被不同的用户来查询的次数小于２０次，则排除在集合Ｓ之外；否则，把该查询主题放入该查询主题集合Ｓ中；步骤（２）．对每 ...

【技术特征摘要】

【专利技术属性】
技术研发人员：岑荣伟，刘奕群，张敏，金奕江，马少平，
申请(专利权)人：清华大学，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人