【技术实现步骤摘要】
本专利技术涉及趋势分析及文档排名优化,更具体地说,本专利技术涉及能够找到一特 定领域的子领域并分析和发现这些子领域的趋势的基于聚类/分类和时间的簇页面排名 设备和方法。
技术介绍
在趋势分析和文档排名优化的领域中,参考文件1(US20050234877A1,“System and method for searching using a temporal dimension” )公开了对查询结果进行时间上排序,排序时考虑每个结果文档的作者权威和出版社权威。其中,基于时间的排名 使用了基于文档出版时间和现在的时间差的老化函数以及一个会使得发表时间越久文档 值降低越快的比率。但是,该方案只是计算单文档的基于时间的页面排名值并预测其趋 势,并用于预测单文档趋势。参考文件2 (US20080071763A1, Dynamic updating of display and ranking for search results , EMC CORP)公开了重新对搜索排序,其采用了页面排名值来对搜索结 果的第一部分进行排序,用聚类方法往第一部分结果中插入搜索结果的第二部分。参考文件3 (US20070143300A1, System and method for monitoring evolution over time of temporal content”,ASK JEEVES INC)公开了根据用户输入的查询语句,收 到和存储基于时间的内容,分析实体出现以确定基于时间的内容趋势。参考文件4(US20060089924A1, Document categor ...
【技术保护点】
一种基于聚类/分类和时间的簇页面排名设备,包括:搜索器,被配置以接收用户给定的查询语句,根据所述查询语句从数据集中搜索相关文档并计算所搜索文档的文档相关值,从而得到排序的相关文档集,并将所述相关文档集输出;簇生成器,被配置以接收从所述搜索器输出的相关文档集,对所述相关文档集进行聚类或分类从而得到簇,并将所述簇输出;基于时间的簇页面排名计算器,被配置以从所述簇生成器接收所输出的簇,基于簇计算基于时间的簇页面排名值,并输出所述基于时间的簇页面排名值,所述基于时间的簇页面排名值是所述簇中所有文档的基于时间的文档链接值的组合,并作为所述簇中所有文档的基于时间的页面排名值、基于时间的作者排名值和基于时间的文档库排名值的组合;簇趋势生成器,被配置以从所述基于时间的簇页面排名计算器接收所述基于时间的簇页面排名值,并根据所述基于时间的簇页面排名值计算簇的未来的基于时间的簇页面排名值,并输出所述未来的基于时间的簇页面排名值;和簇趋势排名器,被配置以从簇趋势生成器接收所述未来的基于时间的簇页面排名值,并对所述未来的基于时间的簇页面排名值进行排序从而得到趋势。
【技术特征摘要】
1.一种基于聚类/分类和时间的簇页面排名设备,包括搜索器,被配置以接收用户给定的查询语句,根据所述查询语句从数据集中搜索相 关文档并计算所搜索文档的文档相关值,从而得到排序的相关文档集,并将所述相关文 档集输出;簇生成器,被配置以接收从所述搜索器输出的相关文档集,对所述相关文档集进行 聚类或分类从而得到簇,并将所述簇输出;基于时间的簇页面排名计算器,被配置以从所述簇生成器接收所输出的簇,基于簇 计算基于时间的簇页面排名值,并输出所述基于时间的簇页面排名值,所述基于时间的 簇页面排名值是所述簇中所有文档的基于时间的文档链接值的组合,并作为所述簇中所 有文档的基于时间的页面排名值、基于时间的作者排名值和基于时间的文档库排名值的 组合;簇趋势生成器,被配置以从所述基于时间的簇页面排名计算器接收所述基于时间的 簇页面排名值,并根据所述基于时间的簇页面排名值计算簇的未来的基于时间的簇页面 排名值,并输出所述未来的基于时间的簇页面排名值;和簇趋势排名器,被配置以从簇趋势生成器接收所述未来的基于时间的簇页面排名 值,并对所述未来的基于时间的簇页面排名值进行排序从而得到趋势。2.如权利要求1所述的设备,其中,所述基于时间的簇页面排名计算器进一步包括页面排名值计算单元,被配置以计算簇中文档的基于时间的页面排名值;作者排名值计算单元,被配置以计算簇中文档的基于时间的作者排名值;文档库排名值计算单元,被配置以计算簇中文档的基于时间的文档库排名值;和加权单元,通过计算来自所述页面排名值计算单元的基于时间的页面排名值、来自 所述作者排名值计算单元的基于时间的作者排名值和来自所述文档库排名值计算单元的 基于时间的文档库排名值的加权和,并累积簇中所有文档的加权和来产生所述基于时间 的簇页面排名值。3.如权利要求2所述的设备,其中,所述页面排名值计算单元通过在所有时间T1的文 档的基于时间的页面排名变化值的加权和来计算该文档在时间Tn的基于时间的页面排名 值,其中i=l,…,n, T1^Tn,且所述在所有时间T1的文档的基于时间的页面排名变化 值的权重是时间T1到Tn的时间差的老化函数,并且在时间T1的文档的基于时间的页面排 名变化值是所有指向该文档的文档在时间T1的基于时间的页面排名变化值的加权和,且 所述所有指向该文档的文档在时间T1的基于时间的页面排名变化值的权重与所述搜索器 得到的文档相关值成正比。4.如权利要求2所述的设备,其中,所述作者排名值计算单元所计算的文档的基于时 间的作者排名值是此文档所有作者的基于时间的作者排名值之和,其中,通过在所有时 间T1的作者的基于时间的作者排名变化值的加权和来计算该作者在时间Tn的基于时间的 作者排名值,其中i=l,...η, T1^Tn,且所述在所有时间T1的作者的基于时间的作者排 名变化值的权重是时间T1到Tn的时间差的老化函数,并且在时间T1的作者的基于时间的 作者排名值为该作者所写的所有指向该文档的文档在时间T1的基于时间的页面排名变化 值的加权和,所述作者所写的所有指向该文档的文档在时间T1的基于时间的页面排名变化值的权重与所述搜索器得到的文档相关值成正比。5.如权利要求2所述的设备,其中,所述文档库排名值计算单元所计算的文档基于时 间的文档库排名值为该文档所在文档库的基于时间的文档库排名值,并且文档库在时间 Tn时的基于时...
【专利技术属性】
技术研发人员:游赣梅,王晓萌,陈义,赵利军,郑继川,
申请(专利权)人:株式会社理光,
类型:发明
国别省市:JP[日本]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。