一种基于LDA和VSM的中草药相似文献的推荐方法技术

技术编号：10106563 阅读：259 留言：0更新日期：2014-06-01 21:06

本发明专利技术公开了一种基于LDA和VSM的中草药相似文献的推荐方法，基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词，构建出向量空间，再对向量空间进行降维，构建出语义词典，对词典中的每一个词项按序编号，通过每篇文档基于该语义词典进行矢量化，构建出每篇文档的词向量，利用LDA的Gibbs采样算法进行训练，得到每篇文档在主题上的概率分布，再利用KL散度计算出每两篇文档之间的相似度值，同时对每篇文档的词向量基于词频计算余弦相似度，最后对两种相似度进行联合加权，之后进行相似度排序，然后推荐出来。本发明专利技术可以将中草药文献中在内容和主题上均相似的文献推荐给用户，推荐的结果更加贴近用户需求。

全部详细技术资料下载

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于LDA和VSM的中草药相似文献的推荐方法，基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词，构建出向量空间，再对向量空间进行降维，构建出语义词典，对词典中的每一个词项按序编号，通过每篇文档基于该语义词典进行矢量化，构建出每篇文档的词向量，利用LDA的Gibbs采样算法进行训练，得到每篇文档在主题上的概率分布，再利用KL散度计算出每两篇文档之间的相似度值，同时对每篇文档的词向量基于词频计算余弦相似度，最后对两种相似度进行联合加权，之后进行相似度排序，然后推荐出来。本专利技术可以将中草药文献中在内容和主题上均相似的文献推荐给用户，推荐的结果更加贴近用户需求。【专利说明】—种基于LDA和VSM的中草药相似文献的推荐方法
本专利技术涉及计算机相似文献推荐
，尤其涉及一种基于LDA (LatentDirichlet Allocation,隐含狄利克雷分布)和VSM (Vector Space Model,向量空间模型)的中草药相似文献的推荐方法。
技术介绍
用户在做文献搜索和详细信息查看的时候，往...

【技术保护点】
一种基于LDA和VSM的中草药相似文献推荐方法，其特征在于，包括以下步骤：（1）针对已经建立好的中草药文献库，针对每一篇文档，基于中草药专用词典，利用IKAnalyzer对文档进行切词，过滤掉停用词、形容词、介词等无用词项，保留动词和名词。切词完毕后，构建出整个中草药文献库的词向量空间，对已经构建好的词向量空间逐词进行编号处理，获得映射词典。（2）对每篇文献基于映射词典进行矢量化处理形成参数化的词向量，再整合所有文献的词向量，形成“文档?词”矩阵。（3）针对“文档?词”矩阵，设定较优的超参数α和β，利用主题模型LDA进行训练，获得训练后的“文档?主题”矩阵和“主题?词”矩阵的收敛结果。（4）对...

【技术特征摘要】

【专利技术属性】
技术研发人员：张引，魏宝刚，庄越挺，凌超，申晨，张月娇，
申请(专利权)人：浙江大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人