当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于LDA和VSM的中草药相似文献的推荐方法技术

技术编号:10106563 阅读:236 留言:0更新日期:2014-06-01 21:06
本发明专利技术公开了一种基于LDA和VSM的中草药相似文献的推荐方法,基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词,构建出向量空间,再对向量空间进行降维,构建出语义词典,对词典中的每一个词项按序编号,通过每篇文档基于该语义词典进行矢量化,构建出每篇文档的词向量,利用LDA的Gibbs采样算法进行训练,得到每篇文档在主题上的概率分布,再利用KL散度计算出每两篇文档之间的相似度值,同时对每篇文档的词向量基于词频计算余弦相似度,最后对两种相似度进行联合加权,之后进行相似度排序,然后推荐出来。本发明专利技术可以将中草药文献中在内容和主题上均相似的文献推荐给用户,推荐的结果更加贴近用户需求。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于LDA和VSM的中草药相似文献的推荐方法,基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词,构建出向量空间,再对向量空间进行降维,构建出语义词典,对词典中的每一个词项按序编号,通过每篇文档基于该语义词典进行矢量化,构建出每篇文档的词向量,利用LDA的Gibbs采样算法进行训练,得到每篇文档在主题上的概率分布,再利用KL散度计算出每两篇文档之间的相似度值,同时对每篇文档的词向量基于词频计算余弦相似度,最后对两种相似度进行联合加权,之后进行相似度排序,然后推荐出来。本专利技术可以将中草药文献中在内容和主题上均相似的文献推荐给用户,推荐的结果更加贴近用户需求。【专利说明】—种基于LDA和VSM的中草药相似文献的推荐方法
本专利技术涉及计算机相似文献推荐
,尤其涉及一种基于LDA (LatentDirichlet Allocation,隐含狄利克雷分布)和VSM (Vector Space Model,向量空间模型)的中草药相似文献的推荐方法。
技术介绍
用户在做文献搜索和详细信息查看的时候,往往不满足于一篇文献所提供的信息,还希望能查看内容相近的其他文献。此时,就需要将与当前文献在内容上相似的文献并推荐给用户。传统的文献相似度推荐方法,大多数基于字面文本内容相似度的计算。例如基于TF-1DF的相似度计算方法是非常常用的方法,但这类算法的拥有一些缺陷,比如仅仅能感知文本的表面含义,无法在文本的隐含语义层面来进步挖掘相似性。
技术实现思路
本专利技术的目的是为克服上述现有方法仅仅能感知文本的表面含义,无法在文本的隐含语义层面来进步挖掘相似性的缺陷,提供一种基于LDA和VSM的中草药相似文献的推荐方法。本专利技术的目的是通过以下技术方案来实现的:一种基于LDA和VSM的中草药相似文献推荐方法,包括以下步骤:( I)针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词等无用词项,保留动词和名词。切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典。(2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档-词”矩阵。(3)针对“文档-词”矩阵,设定较优的超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。(4)对训练后得到的“文档-主题”矩阵利用KL-Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络。(5)针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度。(6)通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。本专利技术与现有技术相比具有的有益效果:1.该方法能在主题和内容上同时感知文献内容的相似性;2.能够应对海量文本数据的应用场景,提供快速高效的相似推荐;3.对文本挖掘中的一词多义具有鲁棒性。【具体实施方式】本专利技术基于LDA和VSM的中草药相似文献推荐方法,包括以下步骤:1、针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词等无用词项,保留动词和名词。切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典。2、对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档-词”矩阵。3、针对“文档-词”矩阵,设定超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。4、对训练后得到的“文档-主题”矩阵,利用KL-Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络。5、针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度。6、通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。所述的步骤3通过以下子步骤来实现:3.1、针对“文档-词”矩阵,利用LDA的Gibbs采样算法,在超参数α =0.0484和β =0.02的条件下,通过不断的迭代训练,度过burn-1n阶段,获得收敛后每篇文献的主题概率分布。采样过程中,对每一篇文档的每一个单词采样某主题的概率为:【权利要求】1.一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,包括以下步骤: (1)针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词等无用词项,保留动词和名词。切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典。 (2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档-词”矩阵。 (3)针对“文档-词”矩阵,设定较优的超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档-主题”矩阵和“主题-词”矩阵的收敛结果。 (4)对训练后得到的“文档-主题”矩阵利用KL-Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络。 (5)针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度。 (6)通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。2.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(3)包括: (3.1)针对“文档-词”矩阵,利用LDA的Gibbs采样算法,在超参数α =0.0484和β =0.02的条件下,通过不断的迭代训练,度过burn-1n阶段,获得收敛后每篇文献的主题概率分布。采样过程中,对每一篇文档的每一个单词采样某主题的概率为: 3.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(4)包括:利用KL-Divergence来计算任意两篇文献之间的主题分布相似度,KL-Divergence的公式如下:4.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(5)包括:利用VSM计算任意两篇文献的余弦相似度,其中文献词向量的每一维的权值采用TF-1DF算法来度量。TF采用如下公式计算: 5.根据权利要求1所述的一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,所述的步骤(6)包括:最终任意两篇文档i,j之间的相似度计算公式如下:Similarity(i, j) = (1-LDASimilarity(i, j)) * a +VSMSimilarity(i, j)* β依据相似度计算公式,对相似文献计算结果排序,推荐给用户。【文档编号】G06F17/30GK103823848SQ201410046769【公开日】2014年5月2本文档来自技高网...

【技术保护点】
一种基于LDA和VSM的中草药相似文献推荐方法,其特征在于,包括以下步骤:(1)针对已经建立好的中草药文献库,针对每一篇文档,基于中草药专用词典,利用IKAnalyzer对文档进行切词,过滤掉停用词、形容词、介词等无用词项,保留动词和名词。切词完毕后,构建出整个中草药文献库的词向量空间,对已经构建好的词向量空间逐词进行编号处理,获得映射词典。(2)对每篇文献基于映射词典进行矢量化处理形成参数化的词向量,再整合所有文献的词向量,形成“文档?词”矩阵。(3)针对“文档?词”矩阵,设定较优的超参数α和β,利用主题模型LDA进行训练,获得训练后的“文档?主题”矩阵和“主题?词”矩阵的收敛结果。(4)对训练后得到的“文档?主题”矩阵利用KL?Divergence计算任意两篇文献在主题上的相似度,构建出相似文献网络。(5)针对前述已经获得的文献词向量,利用VSM计算任意两篇文献的余弦相似度。(6)通过对VSM和LDA两种方法获得的两篇文献的相似度进行加权处理,获得最终的相似度值,并以此为依据进行相似文献推荐。

【技术特征摘要】

【专利技术属性】
技术研发人员:张引魏宝刚庄越挺凌超申晨张月娇
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1