当前位置: 首页 > 专利查询>山东大学专利>正文

一种基于内容相似性的Web主题排序方法技术

技术编号:9794610 阅读:170 留言:0更新日期:2014-03-21 19:26
一种基于内容相似性的Web主题排序方法,属于网络信息处理技术领域。通过网页分析检测筛选出包含相关Web主题的网页,并进行一次排序;对包含该主题的网页内容进行相似性分析,并按照各内容的相似性进行相关排序,完成二次排序。本发明专利技术方法可以为用户提供更加清晰明了的层次性的检索结果,同时,能满足用户对该主题某一确定方面内容的需求。由此可见,基于内容相似性的Web主题排序的方法可以为用户提供更优质高效的检索需求。

【技术实现步骤摘要】

本专利技术涉及,属于网络信息处理

技术介绍
随着因特网的发展,其上的信息呈爆炸式的增长,包括各种各样的新闻,报告,论坛消息等。为了帮助用户检索出其所关心的主题内容就需要对所有网页信息进行相关分析及排序,以供用户查询。目前,排序方法有很多种,而且针对某一特定需求可能包括多种优化的排序方法。用户在查询某一相关Web主题时,可能会重点关心该主题内容中的某一方面,而现有的排序方法在检索时会把所有与该主题相关的各个方面都按照关键字匹配的程度进行排序,而不会针对某特定需求筛选出该主题的某一方面内容并对其进行排序。为了获取更好的排序效果,武汉大学申请了一种专利号为201110194133.3,专利技术名称为“基于Web时间不一致的过时网页自动发现与排序方法”的专利,采用该专利技术能对同类网站基于时间不一致度量进行排序,如政府或大学网站在信息新鲜度方面的质量进行排序,同时该专利技术为搜索引擎提供时间敏感信息排序方法,使得用户能够更便利的搜索最新的信息,能提高网站的内容的及时性。通过对比可以发现,上述专利所针对的是网站信息的实时性,而没有注意到网页内容之间的相似度。【专利技术内本文档来自技高网...

【技术保护点】
一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供优质的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下:1)确定所要筛选的Web主题对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字;2)模糊关键字匹配检测即一次排序2?1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容;2?2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,...

【技术特征摘要】
1.一种基于内容相似性的Web主题排序方法,适用于用户在利用搜索引擎查询Web信息时为用户提供优质的查询结果,结合关键字匹配方法和相似性比较方法对查询到的内容进行排序,该方法具体步骤如下: 1)确定所要筛选的Web主题 对所要查询的Web主题进行关键字检测,确定该主题及主题向量模型q(k),其中k代表关键字; 2)模糊关键字匹配检测即一次排序 2-1对不同网页内容进行敏感性分析,包括网页内容的链接特性,新鲜度及是否过期的检测,将符合条件的网页依据其内容提取其中的关键字形成该网页的向量模型aj(k),j表示第j个网页内容; 2-2将主题向量模型q(k)与所要排序的网页向量模型aj(k)进行模糊关键字匹配检测,并估算出其相应的匹配度...

【专利技术属性】
技术研发人员:袁东风段秋丹朱丽娜
申请(专利权)人:山东大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1