当前位置: 首页 > 专利查询>新乡学院专利>正文

一种基于概率模型的网页推荐解决方法技术

技术编号:19858064 阅读:115 留言:0更新日期:2018-12-22 11:49
本发明专利技术涉及网络技术,特别是一种基于概率模型的网页推荐解决方法。本发明专利技术首先根据分词后的网页文本数据集和索引向量中的关键词,计算关键词的逆文档频率;然后根据分词后的网页文本数据集和关键词逆文档频率,计算关键词与网页文本文档的概率相似度;根据分词后的网页文本数据集,采用Softmax分类函数计算网页文本的类别概率;根据类别向量和网页文本类别概率,计算出网页文本与类别向量的概率相似度;对两者进行融合,计算网页推荐的最终相似度,并进行降序排列,把相似度最高的K个网页推荐给用户,生成推荐列表。本专利性能优于当前的网页推荐方法,能有效地提高推荐的精度,从而达到用户准确搜索信息的目的。

【技术实现步骤摘要】
一种基于概率模型的网页推荐解决方法
本专利技术涉及网络技术,特别是一种基于概率模型的网页推荐解决方法。
技术介绍
随着Web3.0的发展,互联网技术不断更新,使得网络中的数据爆炸式增长,出现了信息过载的问题,那么要在海量数据中发现有价值的信息就变得更困难,网页排序推荐技术的发展可以根据用户检索的关键词提高准确的网页信息,但是传统的推荐方法忽略了关键词的关联性,并且推荐结果的准确性低,错误率高。传统的网页推荐方法大多采用布尔模型或向量空间模型的推荐方法,而没有充分利用检索关键词之间以及关键词与文档间的概率相关性进行推荐,因此如何有效地利用关键词与文档间的概率相关性关系,提高推荐的精度,降低推荐错误率,提升用户体验,是迫切需要研究的热点之一。
技术实现思路
本专利技术的目的在于提供一种基于概率模型的网页推荐解决方法。本专利技术的目的是通过如下途径实现的:一种基于概率模型的网页推荐解决方法,假设已有分词后的网页文本数据集和索引向量,在此基础上做如下定义::索引向量;:索引向量中的关键词;:索引向量中的关键词的个数;:网页类别向量;类别的个数;分词后的网页文本数据集中文档的总数;:分词后的网页文本文档来自技高网...

【技术保护点】
1.一种基于概率模型的网页推荐解决方法,其特征在于:假设已有分词后的网页文本数据集和索引向量

【技术特征摘要】
1.一种基于概率模型的网页推荐解决方法,其特征在于:假设已有分词后的网页文本数据集和索引向量,在此基础上做如下定义::索引向量;:索引向量中的关键词;:索引向量中的关键词的个数;:网页类别向量;类别的个数;分词后的网页文本数据集中文档的总数;:分词后的网页文本数据集中包含关键词的文档数量;:分词后的网页文本数据集中的文档;:融合参数;具体方法步骤:步骤1:根据分词后的网页文本数据集和索引向量A中的关键词,采用公式(1)计算关键词的逆文档频率;其中,表示关键词的逆文档频率,是分词后的网页文本数据集中文档的总数,是网页文本数据集中包含关键词的文档数量;步骤2:根据分词后的网页文本数据集和步骤1得到的关键词逆文档频率,采用公式(2)计算关键词与网页文本文档的概率相似度;其中,表示关键词与网页文本文档的概率相似度,表示关键词的逆文档频率,表示关键词在网页文本文档中出现的频率,是网页文本文档的长度,是索...

【专利技术属性】
技术研发人员:穆瑞辉王晓洁宋丽丽
申请(专利权)人:新乡学院
类型:发明
国别省市:河南,41

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1