一种基于主题间最小平均相似度的最优LDA模型自动选择方法技术

技术编号:17196047 阅读:28 留言:0更新日期:2018-02-03 22:46
本发明专利技术公开了一种基于主题间最小平均相似度的最优LDA模型自动选择方法,本方法为:在初始设定区间内改变K值,对于每一K值:将目标文档集合的主题个数初始值设为当前K值,利用LDA模型对该目标文档集合进行训练,得到K个主题‑词的概率分布向量;计算向量之间的平均相似度ACK并将其存储到全局平均相似度数组;从该数组中选取平均相似度最小值作为临时最小平均相似度,在该数组中以当前临时最小平均相似度所在位置为中心,根据该中心确定该目标文档集合的最佳主题个数,对应的LDA模型为该目标文档集合的最优LDA模型。本发明专利技术提出的方法在实际应用中更直观、可靠。

【技术实现步骤摘要】
一种基于主题间最小平均相似度的最优LDA模型自动选择方法
本专利技术涉及计算机科学下的自然语言处理、机器学习领域,具体为一种LDA模型最优主题个数的确定方法;由于主题个数最优直接决定LDA模型最优,所以本方法也叫最优LDA模型的一种确定方法。
技术介绍
LDA(LatentDirichletAllocation)主题模型(TopicModel)自DavidBlei等在2003年提出以来(参考D.M.Blei,A.Y.Ng,andM.I.Jordan.LatentDirichletallocation.JournalofMachineLearningResearch,3,993-1022,2003),在文本挖掘、信息检索、计算广告、推荐系统、问答系统、知识图谱等涉及文本语义分析的领域得到了广泛应用。LDA模型是一种概率生成模型(参考赵鑫,社交媒体中用户话题兴趣建模与挖掘研究,北京大学优秀博士论文,2014),它不再像传统的向量空间模型,仅仅把文档看成是词典空间上的表示,而是引入了主题空间的概念,从而实现了文本在主题空间上的表示。通过对主题概念的引入,该模型带来了两个好处:(1)实现了文本的低维表示,这非常有利于后续文本分类等之类的计算,避免出现“维数灾难”问题(文本由主题空间上的向量表示,向量的维数即主题空间的维度,由主题个数确定;相对常用的文本向量空间模型,这个维数通常要低得多。在向量空间模型中,文本向量维度由文本集合得到的词典空间的维数大小确定,通常远大于主题个数);(2)挖掘出了文本集合背后隐含的语义信息,即主题,是文本语义建模一个强有力的工具。由于LDA具有坚实的数学基础及良好的扩展性,对该模型自身的探索以及与其他方法的结合等研究,一直是自然语言处理学科、机器学习等领域的热点研究课题之一。其中关于LDA模型参数主题最优个数的确定方法,就是一个具体的研究难点。通过文献检索,关于LDA模型最优主题个数确定方法,主要有以下几种:(1)经验设定,在文本语义分析任务中,研究人员常常通过反复地调试主题的数目来观察实验效果的好坏,比如观察高概率的主题词汇的好坏、语义是否一致等等(参考赵鑫,社交媒体中用户话题兴趣建模与挖掘研究,北京大学优秀博士论文,2014)。经验性设定需要人参与,人为经验评判,结果不一定很准;不同人评判标准也有差异;若文档集合巨大,包含主题个数几十、上百,人工几乎无法一一进行经验判断,同时这不是一种自动化的确定方法。(2)基于Perplexity的确定方法。针对一个文档集合,通过LDA文本建模训练后,基于计算结果,计算Perplexity值。一个较低的Perplexity值,对应着一个好的LDA模型,但最低Perplexity值的自动化确定方法目前还没有人提出。实际应用中,通常是大家根据Perplexity值--主题个数的变化曲线图,人为确定最低点,从而获得最优主题个数。(3)基于非参数贝叶斯方法的变形扩展。比较有代表性的工作是HierarchicalDirichletProcesses模型,它在一定程度上解决了主题模型中自动确定主题数目的问题,但是由于模型复杂,实际使用起来运行复杂度较高,代价太大(参考Teh,Y.W.;Jordan,M.I.;Beal,M.J.;Blei,D.M.(2006).HierarchicalDirichletProcesses.JournaloftheAmericanStatisticalAssociation.101:pp.1566–1581)。(4)曹娟等提出了一种基于主题间最小平均相似度原理的最优LDA模型选择方法,其证明了“当主题之间平均相似度最小主题模型便最优”的结论,同时,提出了一种基于密度的最优主题个数选择算法,此算法是类比密度聚类算法DBSCAN思想提出,是一种相对较好的自动化确定方法。但由于算法思想假设、收敛条件、计算步长的确定方式等在实际应用中会有偏差,计算结果不一定准确、可靠(参考曹娟,张勇东,李锦涛,唐胜,一种基于密度的自适应最优LDA模型选择方法)。
技术实现思路
针对现有技术中存在的技术问题,本专利技术的目的在于提供一种自动确定最优主题个数方法,对比基于密度的算法,本专利技术提出的方法在实际应用中更直观、可靠。本专利技术的技术方案为:一种基于主题间最小平均相似度的最优LDA模型自动选择方法,其步骤包括:1)在初始设定区间[K0,KMAX]内改变K值,对于选取的每一K值:将目标文档集合的主题个数初始值设为当前K值,利用LDA模型对该目标文档集合进行训练,得到K个主题-词的概率分布向量;计算该K个主题-词的概率分布向量之间的平均相似度ACK并将其存储到全局平均相似度数组AC_Array;全局平均相似度数组AC_Array为一维数组;2)从该全局平均相似度数组AC_Array中选取平均相似度最小值作为临时最小平均相似度;该临时最小平均相似度对应的主题个数为TEMP_Kbest;3)在该全局平均相似度数组AC_Array中,以当前临时最小平均相似度所在位置为中心,将该中心右边的数组元素总个数记为NUM_R_TEMP_Kbest,将该中心左边的数组元素总个数记为NUM_L_TEMP_Kbest;4)若NUM_R_TEMP_Kbest大于N×NUM_L_TEMP_Kbest,则输出主题个数Kbest=TEMP_Kbest;若NUM_L_TEMP_Kbest大于NUM_R_TEMP_Kbest,则令KMAX=KMAX+m,K0=Km,r=r0,重复步骤1)~4);若NUM_L_TEMP_Kbest小于NUM_R_TEMP_Kbest且NUM_R_TEMP_Kbest小于N×NUM_TEMP_L_Kbest,则KMAX=N×NUM_L_TEMP_Kbest,K0=Km,r=r1,重复步骤1)~4),r1大于r0;5)将主题个数Kbest作为该目标文档集合的最佳主题个数,该主题个数Kbest对应的LDA模型为该目标文档集合的最优LDA模型。进一步的,根据K=K0+r*n改变K值,r为主题个数递增间隔数,n为正整数。进一步的,计算该平均相似度ACK的方法为:首先计算该K个主题-词的概率分布向量两两之间的相似度,然后计算各相似度的平均值得到该平均相似度ACK。进一步的,所述N取值为4。进一步的,r0为主题个数递增间隔的初始值;r0=3,KMAX的初始值设为30,r0=10。进一步的,所述m=30。本专利技术将按照LDA模型最优主题个数自动化查找问题的提出、解决思路、具体算法等几个部分进行阐述。第一部分,LDA模型最优化主题个数自动确定问题的提出。LDA模型在使用过程中,主题个数需要事先指定。指定不同的主题个数,LDA训练得到的数据也不一样。曹娟等已经证明,当主题之间平均相似度最小时,对应的LDA模型最优,这时便得到最优主题个数。基于这一个结论,如何设计算法,自动找到主题间最小相似度是个很有实用价值的研究课题。下面举例说明,各文献中常用的人工确定最优主题个数的方法。针对具体的文档集合,计算并画出主题之间平均相似度随主题个数变化的趋势图,人工依据趋势图就能判定出最优主题个数。详细过程如下:首先,设定主题个数计算范围,包括设置主题个数的计算区间以及递增间隔;然后,在每个设本文档来自技高网
...
一种基于主题间最小平均相似度的最优LDA模型自动选择方法

【技术保护点】
一种基于主题间最小平均相似度的最优LDA模型自动选择方法,其步骤包括:1)在初始设定区间[K0,KMAX]内改变K值,对于选取的每一K值:将目标文档集合的主题个数初始值设为当前K值,利用LDA模型对该目标文档集合进行训练,得到K个主题‑词的概率分布向量;计算该K个主题‑词的概率分布向量之间的平均相似度ACK并将其存储到全局平均相似度数组AC_Array;全局平均相似度数组AC_Array为一维数组;2)从该全局平均相似度数组AC_Array中选取平均相似度最小值作为临时最小平均相似度;该临时最小平均相似度对应的主题个数为TEMP_Kbest;3)在该全局平均相似度数组AC_Array中,以当前临时最小平均相似度所在位置为中心,将该中心右边的数组元素总个数记为NUM_R_TEMP_Kbest,将该中心左边的数组元素总个数记为NUM_L_TEMP_Kbest;4)若NUM_R_TEMP_Kbest大于N×NUM_L_TEMP_Kbest,则输出主题个数Kbest=TEMP_Kbest;若NUM_L_TEMP_Kbest大于NUM_R_TEMP_Kbest,则令KMAX=KMAX+m,K0=Km,r=r0,重复步骤1)~4);若NUM_L_TEMP_Kbest小于NUM_R_TEMP_Kbest且NUM_R_TEMP_Kbest小于N×NUM_TEMP_L_Kbest,则KMAX=N×NUM_L_TEMP_Kbest,K0=Km,r=r1,重复步骤1)~4),r1大于r0;5)将主题个数Kbest作为该目标文档集合的最佳主题个数,该主题个数Kbest对应的LDA模型为该目标文档集合的最优LDA模型。...

【技术特征摘要】
1.一种基于主题间最小平均相似度的最优LDA模型自动选择方法,其步骤包括:1)在初始设定区间[K0,KMAX]内改变K值,对于选取的每一K值:将目标文档集合的主题个数初始值设为当前K值,利用LDA模型对该目标文档集合进行训练,得到K个主题-词的概率分布向量;计算该K个主题-词的概率分布向量之间的平均相似度ACK并将其存储到全局平均相似度数组AC_Array;全局平均相似度数组AC_Array为一维数组;2)从该全局平均相似度数组AC_Array中选取平均相似度最小值作为临时最小平均相似度;该临时最小平均相似度对应的主题个数为TEMP_Kbest;3)在该全局平均相似度数组AC_Array中,以当前临时最小平均相似度所在位置为中心,将该中心右边的数组元素总个数记为NUM_R_TEMP_Kbest,将该中心左边的数组元素总个数记为NUM_L_TEMP_Kbest;4)若NUM_R_TEMP_Kbest大于N×NUM_L_TEMP_Kbest,则输出主题个数Kbest=TEMP_Kbest;若NUM_L_TEMP_Kbest大于NUM_R_TEMP_Kbest,则...

【专利技术属性】
技术研发人员:汪洋孙启超韩宁
申请(专利权)人:中国软件与技术服务股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1