一种结合Doc2vec和Faiss的个性化文献推荐方法技术

技术编号:37162530 阅读:34 留言:0更新日期:2023-04-06 22:29
本发明专利技术公开了一种结合Doc2vec和Faiss的个性化文献推荐方法,包括:从学术文献库中采集学术文献数据并进行预处理,生成训练语料库;将训练语料库输入Doc2vec模型进行训练,得到语义模型;使用语义模型推断召回池文献Embedding和用户行为文献Embedding;将召回池文献向量添加至Faiss,构建索引向量库;制定用户Embedding计算规则,将所述用户行为文献Embedding进行线性加权作为用户特征向量;基于用户特征向量在Faiss中进行文献召回,为用户生成个性化文献推荐列表。本发明专利技术通过Doc2vec挖掘文献潜在的语义信息,能够更好的表示学习文献特征和用户特征,提升推荐效果;结合Faiss的高效检索性能,加快用户个性化文献推荐列表的产出速度。献推荐列表的产出速度。献推荐列表的产出速度。

【技术实现步骤摘要】
一种结合Doc2vec和Faiss的个性化文献推荐方法


[0001]本专利技术涉及学术文献推荐
,尤其涉及一种结合Doc2vec和Faiss的个性化文献推荐方法。

技术介绍

[0002]学术文献自身具有丰富的文本信息,比如文献全文、标题、摘要和关键词等,因此基于内容的推荐算法在学术文献推荐领域应用较为广泛。基于内容的学术文献推荐算法核心工作之一是文献文本向量化,其主要目的是将文字信息表示成一系列能够表达文本语义的数值向量。将文本转化成向量的方法主要有两种:one

hot编码和词嵌入技术。One

hot编码由于使用稀疏向量来表示文本,当文本规模较大、词典中单词个数较多时,容易发生维度灾难;并且one

hot编码无法表示学习单词与单词之间的语义关系。词嵌入方法使用稠密向量表示学习单词语义信息,可以很好的克服上述缺点。词嵌入的典型代表算法是word2vec,其利用深度学习中神经网络的思想,能够充分表示学习词与词之间的语义关系并且解决了维度灾难问题。但word2vec不能有效的把文档中的本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,包括:A、从学术文献库中采集学术文献数据并进行预处理,生成训练语料库;B、将训练语料库输入Doc2vec模型进行训练,得到语义模型;C、使用语义模型推断召回池文献Embedding和用户行为文献Embedding;D、将召回池文献向量添加至Faiss,构建索引向量库;E、制定用户Embedding计算规则,将所述用户行为文献Embedding进行线性加权作为用户特征向量;F、基于用户特征向量在Faiss中进行文献召回,为用户生成个性化文献推荐列表。2.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述A中学术文献库包括期刊、博士论文、硕士论文、会议文献库,采集百万级文献数据;对所述文献进行分词形成单词列表降噪、过滤掉停用词、非法字符形成训练语料库。3.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述B中,采用Doc2vec的PV

DM训练方法和负采样加速训练方式,将训练语料库输入Doc2vec模型进行训练,得到语义模型。4.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述C中,以期刊、博士论文、硕士论文、会议全量文献库作为召回池文献;将用户近半年下载、浏览、收藏、关注的文献滤重后作为用户的行为文献;针对所述每篇文献,融合其标题、摘要、关键词作为文本数据,经过分词、停用词过滤和降噪预处理操作后,输入预训练好的Doc2vec模型,推断出召回池文献Embedding和用户行为文献Embedding。5.如权利要求1所述的结合Doc2vec和Faiss的个性化文献推荐方法,其特征在于,所述D中,确定Faiss索引类型,将召回池文献Emb...

【专利技术属性】
技术研发人员:张良王现臣肖银涛王友平高清华
申请(专利权)人:同方知网数字出版技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1