【技术实现步骤摘要】
一种基于词向量的文献推荐方法
本专利技术涉及一种基于词向量的文献推荐方法。
技术介绍
早期的文献推荐主要采用基于内容的推荐算法,通过文本标签分析文献的底层特征,进而将内容相似的文献放入推荐阅读列表。如牛滨等提出基于MFCC与GMM的个性推荐模型提取文献文本标签特征,但是标签数据的提取非常耗时,而现今文献更新快速,每天都会推出新的数以万计的文献,所以纯粹基于文本标签特征的文献推荐已逐渐被淘汰。自从Tapestry系统为解决信息过量问题采用协同过滤技术以后,协同过滤即迅速被应用于其它领域的推荐。著名的某国外文献平台即是采用协同过滤技术,将用户行为记录放入服务器中,据此找出若干兴趣偏好相似的“最近邻”,最后将最近邻喜好,但目标用户未浏览过的文献推荐给目标用户。而在国内的最新研究中,王君等提出了层次文献推荐系统概念,一方面采取用户间文献偏好相似度进行协同过滤的文献推荐,另一方面,文献内容的相似包括主题、情感、笔法、用词等多个维度,将两方面联系起来,充分发挥两者优势,从而提高推荐满意度。与其它领域的推荐不同,用户在阅读文献时可能出于个人兴趣或辅助工作学习的用途,因而造成了文 ...
【技术保护点】
1.一种基于词向量的文献推荐方法,其特征在于,包括以下步骤:步骤1,基于神经网络语言模型,对用户阅读文献及上下文进行特征提取;步骤2,基于用户的文献序列特征推算用户阅读的全局兴趣向量和上下文兴趣向量;步骤3,建立数学模型计算用户相似度和文献兴趣指数,实现用户阅读的文献推荐。
【技术特征摘要】
1.一种基于词向量的文献推荐方法,其特征在于,包括以下步骤:步骤1,基于神经网络语言模型,对用户阅读文献及上下文进行特征提取;步骤2,基于用户的文献序列特征推算用户阅读的全局兴趣向量和上下文兴趣向量;步骤3,建立数学模型计算用户相似度和文献兴趣指数,实现用户阅读的文献推荐。2.根据权利要求1所述的方法,其特征在于,步骤1包括:步骤1-1,获取用户的完整文献阅读序列,阅读序列中的每条记录包括文献ID、阅读时间、文献出处;步骤1-2,根据阅读时间和文献出处,对用户的完整文献阅读序列进行分组,得到子序列,设置阅读间隔时间阈值,不超过间隔时间阈值且文献出处相同的记录会分到同一个子序列里面,而超过间隔时间阈值的或者文献出处不同的记录会分到不同的子序列里面;步骤1-3,利用神经网络语言模型中的Word2vec模型处理所有用户的完整文献阅读序列,得到每篇文献粗粒度的特征向量,利用Word2vec语言模型处理所有用户的子序列,得到每篇文献细粒度的特征向量,其中,具有相似阅读上下文的文献具有相似的特征向量。3.根据权利要求2所述的方法,其特征在于,对于步骤1-3得到的特征向量,根据对效率和准确度的需求调整特征向量的维度,如果需要更准确的推荐结果则增加特征向量维度,如果需要更高的计算效率则减少特征向量维度。4.根据权利要求3所述的方法,其特征在于,步骤2包括:步骤2-1...
【专利技术属性】
技术研发人员:后弘毅,杨权,梁栋,
申请(专利权)人:中国电子科技集团公司第二十八研究所,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。