基于标签推荐文档的方法及文档推荐装置制造方法及图纸

技术编号：8387205 阅读：190 留言：0更新日期：2013-03-07 07:51

本发明专利技术公开了一种基于标签推荐文档的方法及文档推荐装置。该方法包括：接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。应用本发明专利技术，可以提升文档推荐效率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及搜索技木，尤其涉及ー种基于标签(tag)推荐文档的方法及文档推荐
技术介绍
随着互联网技术的迅速发展，网络文档，例如，博文以及微博文的数量迅速膨胀，如何有效管理网络文档的海量数据资源，以及，从海量数据资源的文档中，向用户有效推荐文档，受到越来越多的关注。其中，文档分类技术作为管理海量数据以及推荐文档的关键技术，得到了巨大的发展，质量高的文档分类，可以为管理和推荐文档提供较好的支持。现有技术中，文档分类主要基于特征值权重技术，特征值权重的计算考虑两个权重因子词频(TF, Term Frequency)以及逆文档词频(IDF, Inverse Document Frequency)。其中，TF表示ー个词(标签)在文档中出现的次数的权重,如果ー个词在文档中出现的次数越高，该词就越能表征该文档的主题，同时，考虑文档的长度，因为文档越长，词在文档中出现的频率越高。TF的权重计算公式为TF =十式中，TF为词频权重；Pw为词w出现在文档中的次数；P为文档长度。IDF是表示文档集体范围的ー种全局因子，IDF的权重计算公式为//)/' = log — W式中，I...

【技术保护点】
一种基于标签推荐文档的方法，包括：接收用户选取的文档标签，查询预先设置的同义词词林，获取与文档标签相对应的同义词组；根据获取的同义词组，从预先存储的文档库中，查询并获取包含所述同义词组的文档列表；计算包含所述同义词组的文档列表中每一文档的特征值，构建基于文档标签的空间权重向量；根据构建的基于文档标签的空间权重向量，计算文档标签对应的文档与文档列表中每一篇文档的相似度，并选取预定数目的相似度最高的文档作为查询结果输出。

【技术特征摘要】

【专利技术属性】
技术研发人员：刘晓震，
申请(专利权)人：新浪技术中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人