基于聚类/分类和时间的簇页面排名设备和方法技术

技术编号:5190139 阅读:269 留言:0更新日期:2012-04-11 18:40
提供了基于聚类/分类和时间的簇页面排名设备和方法。该簇页面排名设备包括:搜索器,被配置以根据给定查询语句从数据集中搜索相关文档并计算所搜索的文档的文档相关值,从而得到排序的相关文档集;簇生成器,被配置以对所述相关文档集进行聚类或分类从而得到簇;基于时间的簇页面排名计算器,被配置以基于簇计算基于时间的簇页面排名值(TCP值),其是所述簇中所有文档的基于时间的文档链接值的组合,并作为所述簇中所有文档的基于时间的页面排名值、基于时间的作者排名值和基于时间的文档库排名值的组合;簇趋势生成器,被配置根据TCP值计算簇的未来的TCP值;和簇趋势排名器,被配置以对所述未来的TCP值进行排序从而得到趋势。

【技术实现步骤摘要】

本专利技术涉及趋势分析及文档排名优化,更具体地说,本专利技术涉及能够找到一特 定领域的子领域并分析和发现这些子领域的趋势的基于聚类/分类和时间的簇页面排名 设备和方法。
技术介绍
在趋势分析和文档排名优化的领域中,参考文件1(US20050234877A1,“System and method for searching using a temporal dimension” )公开了对查询结果进行时间上排序,排序时考虑每个结果文档的作者权威和出版社权威。其中,基于时间的排名 使用了基于文档出版时间和现在的时间差的老化函数以及一个会使得发表时间越久文档 值降低越快的比率。但是,该方案只是计算单文档的基于时间的页面排名值并预测其趋 势,并用于预测单文档趋势。参考文件2 (US20080071763A1, Dynamic updating of display and ranking for search results , EMC CORP)公开了重新对搜索排序,其采用了页面排名值来对搜索结 果的第一部分进行排序,用聚类方法往第一部分结果中插入搜索结果的第二部分。参考文件3 (US20070143300A1, System and method for monitoring evolution over time of temporal content”,ASK JEEVES INC)公开了根据用户输入的查询语句,收 到和存储基于时间的内容,分析实体出现以确定基于时间的内容趋势。参考文件4(US20060089924A1, Document categorisation system)公开了一 个文档分类系统,包括一个聚类器和一个过滤模块。系统包括一个用于确定文档分类随 时间的变化趋势和确定新簇的趋势分析器,此系统可用于电子数据表应用的嵌入模块。另夕卜,在参考文件 5 (Hassan Sayyadi,Lise Getoory ; FutureRank Ranking Scientific Articles by Predicting their Future PageRank , Society for Industrial and Applied Mathematics (SIAM)Data Mining Conference(SDM 2009))中,其方法将引用,作者和出版 时间结合在一起有效地对科学文章进行排序并预测文章的未来趋势,但是此方法不涉及 分类和聚类方法,对搜索结果的页面排名值上增加与时间相关的值,并且仅用于预测单 文档趋势。另外,现有技术中还存在以下的一些系统,其中CiteSpace是一个将趋势可视化 系统。但此系统只考虑了作者间的合作关系,并没有对未来趋势进行预测。ThemeRiver是一个趋势、模式判别系统。但它没考虑网络的上下文,也没对未 来数据进行预测,只有对历史数据的统计。而Google trend分析Google网页搜索用于计算用户使用词的次数。因为没考虑用户的权威性,所以使用词的次数多并不代表它就是权威的。综上所述,在现有方法中,用户首先根据给定领域搜索相关文档,然后只是简 单计算已知子领域的文档数目或人工总结文档内容、分析时间并预测趋势。计算文档数 目不能揭示文档的内容关系,而人工分析方法又耗时又不客观。
技术实现思路
因此,本专利技术的目的是解决上述现有技术中的缺点,从而对于一给定领域,找 到正出现的子领域并预测这些子领域的趋势。为了解决现有技术中的问题,本专利提出了基于聚类/分类的时间的簇页面排 名设备和方法。其能够自动发现子领域并采用基于时间的链接关系来客观地计算子领域 的相对重要性,即趋势。根据本专利技术的一个方面,提供了一种基于聚类/分类和时间的簇页面排名设 备,包括搜索器,被配置以接收用户给定的查询语句,根据所述查询语句从数据集中 搜索相关文档并计算所搜索文档的文档相关值,从而得到排序的相关文档集,并将所述 相关文档集输出;簇生成器,被配置以接收从所述搜索器输出的相关文档集,对所述相 关文档集进行聚类或分类从而得到簇,并将所述簇输出;基于时间的簇页面排名计算 器,被配置以从所述簇生成器接收所输出的簇,基于簇计算基于时间的簇页面排名值, 并输出所述基于时间的簇页面排名值,所述基于时间的簇页面排名值是所述簇中所有 文档的基于时间的文档链接值的组合,并作为所述簇中所有文档的基于时间的页面排名 值、基于时间的作者排名值和基于时间的文档库排名值的组合;簇趋势生成器,被配置 以从所述基于时间的簇页面排名计算器接收所述基于时间的簇页面排名值,并根据所述 基于时间的簇页面排名值计算簇的未来的基于时间的簇页面排名值,并输出所述未来的 基于时间的簇页面排名值;和簇趋势排名器,被配置以从簇趋势生成器接收所述未来的 基于时间的簇页面排名值,并对所述未来的基于时间的簇页面排名值进行排序从而得到 趋势。在本专利技术中,所述基于时间的簇页面排名计算器进一步包括页面排名值计算 单元,被配置以计算簇中文档的基于时间的页面排名值;作者排名值计算单元,被配置 以计算簇中文档的基于时间的作者排名值;文档库排名值计算单元,被配置以计算簇中 文档的基于时间的文档库排名值;和加权单元,通过计算来自所述页面排名值计算单元 的基于时间的页面排名值、来自所述作者排名值计算单元的基于时间的作者排名值和来 自所述文档库排名值计算单元的基于时间的文档库排名值的加权和,并累积簇中所有文 档的加权和来产生所述基于时间的簇页面排名值。在本专利技术中,所述页面排名值计算单元通过在所有时间T1的文档的基于时间 的页面排名变化值的加权和来计算该文档在时间Tn的基于时间的页面排名值,其中i = 1,…,n, T1^Tn,且所述在所有时间T1的文档的基于时间的页面排名变化值的权重是时 间T1到Tn的时间差的老化函数,并且在时间T1的文档的基于时间的页面排名变化值是所 有指向该文档的文档在时间T1的基于时间的页面排名变化值的加权和,且所述所有指向 该文档的文档在时间T1的基于时间的页面排名变化值的权重与所述搜索器得到的文档相 关值成正比。在本专利技术中,所述作者排名值计算单元所计算的文档的基于时间的作者排名值 是此文档所有作者的基于时间的作者排名值之和,其中,通过在所有时间T1的作者的基 于时间的作者排名变化值的加权和来计算该作者在时间Tn的基于时间的作者排名值,其 中i = l,…,n, T1^Tn,且所述在所有时间T1的作者的基于时间的作者排名变化值的权重是时间T1到Tn的时间差的老化函数,并且在时间T1的作者的基于时间的作者排名值为 该作者所写的所有指向该文档的文档在时间Ti的基于时间的页面排名变化值的加权和, 所述作者所写的所有指向该文档的文档在时间T1的基于时间的页面排名变化值的权重与 所述搜索器得到的文档相关值成正比。在本专利技术中,所述文档库排名值计算单元所计算的文档基于时间的文档库排名 值为该文档所在文档库的基于时间的文档库排名值,并且文档库在时间Tn时的基于时间 的文档库排名值是在所有时间T1的文档库的基于时间的文档库排名变化值之和,其中i = 1,…,n, T1^Tn,,并且在时间T1的文档库的基于时间的文档库排名变化值为该文档库本文档来自技高网
...

【技术保护点】
一种基于聚类/分类和时间的簇页面排名设备,包括:搜索器,被配置以接收用户给定的查询语句,根据所述查询语句从数据集中搜索相关文档并计算所搜索文档的文档相关值,从而得到排序的相关文档集,并将所述相关文档集输出;簇生成器,被配置以接收从所述搜索器输出的相关文档集,对所述相关文档集进行聚类或分类从而得到簇,并将所述簇输出;基于时间的簇页面排名计算器,被配置以从所述簇生成器接收所输出的簇,基于簇计算基于时间的簇页面排名值,并输出所述基于时间的簇页面排名值,所述基于时间的簇页面排名值是所述簇中所有文档的基于时间的文档链接值的组合,并作为所述簇中所有文档的基于时间的页面排名值、基于时间的作者排名值和基于时间的文档库排名值的组合;簇趋势生成器,被配置以从所述基于时间的簇页面排名计算器接收所述基于时间的簇页面排名值,并根据所述基于时间的簇页面排名值计算簇的未来的基于时间的簇页面排名值,并输出所述未来的基于时间的簇页面排名值;和簇趋势排名器,被配置以从簇趋势生成器接收所述未来的基于时间的簇页面排名值,并对所述未来的基于时间的簇页面排名值进行排序从而得到趋势。

【技术特征摘要】
1.一种基于聚类/分类和时间的簇页面排名设备,包括搜索器,被配置以接收用户给定的查询语句,根据所述查询语句从数据集中搜索相 关文档并计算所搜索文档的文档相关值,从而得到排序的相关文档集,并将所述相关文 档集输出;簇生成器,被配置以接收从所述搜索器输出的相关文档集,对所述相关文档集进行 聚类或分类从而得到簇,并将所述簇输出;基于时间的簇页面排名计算器,被配置以从所述簇生成器接收所输出的簇,基于簇 计算基于时间的簇页面排名值,并输出所述基于时间的簇页面排名值,所述基于时间的 簇页面排名值是所述簇中所有文档的基于时间的文档链接值的组合,并作为所述簇中所 有文档的基于时间的页面排名值、基于时间的作者排名值和基于时间的文档库排名值的 组合;簇趋势生成器,被配置以从所述基于时间的簇页面排名计算器接收所述基于时间的 簇页面排名值,并根据所述基于时间的簇页面排名值计算簇的未来的基于时间的簇页面 排名值,并输出所述未来的基于时间的簇页面排名值;和簇趋势排名器,被配置以从簇趋势生成器接收所述未来的基于时间的簇页面排名 值,并对所述未来的基于时间的簇页面排名值进行排序从而得到趋势。2.如权利要求1所述的设备,其中,所述基于时间的簇页面排名计算器进一步包括页面排名值计算单元,被配置以计算簇中文档的基于时间的页面排名值;作者排名值计算单元,被配置以计算簇中文档的基于时间的作者排名值;文档库排名值计算单元,被配置以计算簇中文档的基于时间的文档库排名值;和加权单元,通过计算来自所述页面排名值计算单元的基于时间的页面排名值、来自 所述作者排名值计算单元的基于时间的作者排名值和来自所述文档库排名值计算单元的 基于时间的文档库排名值的加权和,并累积簇中所有文档的加权和来产生所述基于时间 的簇页面排名值。3.如权利要求2所述的设备,其中,所述页面排名值计算单元通过在所有时间T1的文 档的基于时间的页面排名变化值的加权和来计算该文档在时间Tn的基于时间的页面排名 值,其中i=l,…,n, T1^Tn,且所述在所有时间T1的文档的基于时间的页面排名变化 值的权重是时间T1到Tn的时间差的老化函数,并且在时间T1的文档的基于时间的页面排 名变化值是所有指向该文档的文档在时间T1的基于时间的页面排名变化值的加权和,且 所述所有指向该文档的文档在时间T1的基于时间的页面排名变化值的权重与所述搜索器 得到的文档相关值成正比。4.如权利要求2所述的设备,其中,所述作者排名值计算单元所计算的文档的基于时 间的作者排名值是此文档所有作者的基于时间的作者排名值之和,其中,通过在所有时 间T1的作者的基于时间的作者排名变化值的加权和来计算该作者在时间Tn的基于时间的 作者排名值,其中i=l,...η, T1^Tn,且所述在所有时间T1的作者的基于时间的作者排 名变化值的权重是时间T1到Tn的时间差的老化函数,并且在时间T1的作者的基于时间的 作者排名值为该作者所写的所有指向该文档的文档在时间T1的基于时间的页面排名变化 值的加权和,所述作者所写的所有指向该文档的文档在时间T1的基于时间的页面排名变化值的权重与所述搜索器得到的文档相关值成正比。5.如权利要求2所述的设备,其中,所述文档库排名值计算单元所计算的文档基于时 间的文档库排名值为该文档所在文档库的基于时间的文档库排名值,并且文档库在时间 Tn时的基于时...

【专利技术属性】
技术研发人员:游赣梅王晓萌陈义赵利军郑继川
申请(专利权)人:株式会社理光
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1