【技术实现步骤摘要】
基于LDA主题模型的文档推荐方法
[0001]本专利技术属于信息
,具体涉及一种基于LDA主题模型的文档推荐方法。
技术介绍
[0002]随着信息技术的快速发展和信息资源的不断丰富,信息呈爆炸式增长,面对海量的信息资源,如何从中获取到符合用户需求的信息,是当今大数据时代下面临的重大问题。文档推荐技术的使命是为用户和推荐物品建立联系,然而面对新用户、新物品时,推荐系统往往会遇到冷启动问题。对于新用户或者不活跃的用户,以及新物品或展示次数较少的物品,由于缺乏相关数据,彼此之间无法建立联系,就无法准确地进行推荐。为此,设计一个可以充分利用已有用户、文档特征并使其建立联系的方法,对于解决推荐系统冷启动问题具有重要意义。
技术实现思路
[0003](一)要解决的技术问题
[0004]本专利技术要解决的技术问题是:如何解决文本进入推荐系统的冷启动问题。
[0005](二)技术方案
[0006]为了解决上述技术问题,本专利技术提供了一种基于LDA主题模型的文档推荐方法,包括以下步骤:
[0007]第一步、以文本数据为输入,输出训练好的主题模型,并将用户
‑
主题分布矩阵、文档
‑
主题分布矩阵和计算得到的用户
‑
文档得分矩阵存储至内存;
[0008]第二步、基于第一步按内容推荐文档。
[0009]优选地,第一步具体为:
[0010](1)训练文本数据
[0011]采用LDA,以文本数据为输入,输出 ...
【技术保护点】
【技术特征摘要】
1.一种基于LDA主题模型的文档推荐方法,其特征在于,包括以下步骤:第一步、以文本数据为输入,输出训练好的主题模型,并将用户
‑
主题分布矩阵、文档
‑
主题分布矩阵和计算得到的用户
‑
文档得分矩阵存储至内存;第二步、基于第一步按内容推荐文档。2.如权利要求1所述的方法,其特征在于,第一步具体为:(1)训练文本数据采用LDA,以文本数据为输入,输出训练好的主题模型;(2)计算文档
‑
主题分布文档导入时,通过所述主题模型计算得到其主题分布,即文档
‑
主题分布,文档
‑
主题分布矩阵中每一行代表一篇文档,每一列代表一个主题;(3)计算用户
‑
主题分布当用户登录时,从数据库读取用户
‑
主题分布,如果该用户是新用户,则判定用户对所有主题兴趣度一样,并初始化一个的所有值相等的主题分布,用户
‑
主题分布矩阵中每一行代表一个用户,每一列代表一个主题;(4)计算用户
‑
文档得分用户
‑
文档得分矩阵由用户
‑
主题分布矩阵和主题
‑
文档分布矩阵计算得到:用户
‑
文档得分矩阵=用户
‑
主题分布矩阵
×
主题
‑
文档分布矩阵其中,用户
‑
文档得分矩阵中每一行代表一个用户对应各文档的得分,每一列代表一篇文档对应各用户的得分,主题
‑
文档分布矩阵为文档
‑
主题分布矩阵的转置;用户
‑
文档得分是用户
‑
文档得分矩阵中的一个元素,计算用户
‑
文档得分考虑三个因素,分别为用户兴趣、浏览历史、文档热度,用户兴趣体现用户对不同主题的关注度,浏览历史记录用户曾经浏览过的文档,文档热度反映该文档在推荐系统中的火爆程度;将用户
‑
文档得分矩阵中的每个用户
‑
文档得分都加上Sigmod(热度值),Sigmod(热度值)是指对热度值进行sigmod归一化后的值;最后,根据用户兴趣与文档主题的相似度,综合考虑浏览历史、文档热度,遍历所有用户和文档,计算用户
‑
文档得分;(5)存储结果至内存将用户
‑
主题分布矩阵、文档
‑
主题分布矩阵和最终计算得到的用户
‑
文档得分矩阵存储至内存。3.如权利要求2所述的方法,其特征在于,第二步具体为:(1)计算搜索内容的主题分布获取用户在搜索框中输入的...
【专利技术属性】
技术研发人员:范昕煜,杨雨婷,王又辰,田宗凯,栾真,
申请(专利权)人:北京计算机技术及应用研究所,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。