【技术实现步骤摘要】
本专利技术涉及搜索技木,尤其涉及ー种基于标签(tag)推荐文档的方法及文档推荐
技术介绍
随着互联网技术的迅速发展,网络文档,例如,博文以及微博文的数量迅速膨胀,如何有效管理网络文档的海量数据资源,以及,从海量数据资源的文档中,向用户有效推荐文档,受到越来越多的关注。其中,文档分类技术作为管理海量数据以及推荐文档的关键技术,得到了巨大的发展,质量高的文档分类,可以为管理和推荐文档提供较好的支持。现有技术中,文档分类主要基于特征值权重技术,特征值权重的计算考虑两个权重因子词频(TF, Term Frequency)以及逆文档词频(IDF, Inverse Document Frequency)。其中,TF表示ー个词(标签)在文档中出现的次数的权重,如果ー个词在文档中出现的次数越高,该词就越能表征该文档的主题,同时,考虑文档的长度,因为文档越长,词在文档中出现的频率越高。TF的权重计算公式为TF =十式中,TF为词频权重;Pw为词w出现在文档中的次数;P为文档长度。IDF是表示文档集体范围的ー种全局因子,IDF的权重计算公式为//)/' = log — W式中,I ...
【技术保护点】
一种基于标签推荐文档的方法,包括:接收用户选取的文档标签,查询预先设置的同义词词林,获取与文档标签相对应的同义词组;根据获取的同义词组,从预先存储的文档库中,查询并获取包含所述同义词组的文档列表;计算包含所述同义词组的文档列表中每一文档的特征值,构建基于文档标签的空间权重向量;根据构建的基于文档标签的空间权重向量,计算文档标签对应的文档与文档列表中每一篇文档的相似度,并选取预定数目的相似度最高的文档作为查询结果输出。
【技术特征摘要】
【专利技术属性】
技术研发人员:刘晓震,
申请(专利权)人:新浪技术中国有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。