一种基于主题间最小平均相似度的最优LDA模型自动选择方法技术

技术编号：17196047 阅读：28 留言：0更新日期：2018-02-03 22:46

本发明专利技术公开了一种基于主题间最小平均相似度的最优LDA模型自动选择方法，本方法为：在初始设定区间内改变K值，对于每一K值：将目标文档集合的主题个数初始值设为当前K值，利用LDA模型对该目标文档集合进行训练，得到K个主题‑词的概率分布向量；计算向量之间的平均相似度ACK并将其存储到全局平均相似度数组；从该数组中选取平均相似度最小值作为临时最小平均相似度，在该数组中以当前临时最小平均相似度所在位置为中心，根据该中心确定该目标文档集合的最佳主题个数，对应的LDA模型为该目标文档集合的最优LDA模型。本发明专利技术提出的方法在实际应用中更直观、可靠。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于主题间最小平均相似度的最优LDA模型自动选择方法
本专利技术涉及计算机科学下的自然语言处理、机器学习领域，具体为一种LDA模型最优主题个数的确定方法；由于主题个数最优直接决定LDA模型最优，所以本方法也叫最优LDA模型的一种确定方法。
技术介绍
LDA(LatentDirichletAllocation)主题模型(TopicModel)自DavidBlei等在2003年提出以来(参考D.M.Blei,A.Y.Ng,andM.I.Jordan.LatentDirichletallocation.JournalofMachineLearningResearch,3,993-1022,2003)，在文本挖掘、信息检索、计算广告、推荐系统、问答系统、知识图谱等涉及文本语义分析的领域得到了广泛应用。LDA模型是一种概率生成模型(参考赵鑫，社交媒体中用户话题兴趣建模与挖掘研究，北京大学优秀博士论文，2014)，它不再像传统的向量空间模型，仅仅把文档看成是词典空间上的表示，而是引入了主题空间的概念，从而实现了文本在主题空间上的表示。通过对主题概念的引入，该模型带来了两个好处：(1)实现了文本的低维表示,这非常有利于后续文本分类等之类的计算，避免出现“维数灾难”问题(文本由主题空间上的向量表示，向量的维数即主题空间的维度，由主题个数确定；相对常用的文本向量空间模型，这个维数通常要低得多。在向量空间模型中，文本向量维度由文本集合得到的词典空间的维数大小确定，通常远大于主题个数)；(2)挖掘出了文本集合背后隐含的语义信息，即主题，是文本语义建模一个强有力的工具。由于L...
一种基于主题间最小平均相似度的最优LDA模型自动选择方法

【技术保护点】
一种基于主题间最小平均相似度的最优LDA模型自动选择方法，其步骤包括：1)在初始设定区间[K0,KMAX]内改变K值，对于选取的每一K值：将目标文档集合的主题个数初始值设为当前K值，利用LDA模型对该目标文档集合进行训练，得到K个主题‑词的概率分布向量；计算该K个主题‑词的概率分布向量之间的平均相似度ACK并将其存储到全局平均相似度数组AC_Array；全局平均相似度数组AC_Array为一维数组；2)从该全局平均相似度数组AC_Array中选取平均相似度最小值作为临时最小平均相似度；该临时最小平均相似度对应的主题个数为TEMP_Kbest；3)在该全局平均相似度数组AC_Array中，以当前临时最小平均相似度所在位置为中心，将该中心右边的数组元素总个数记为NUM_R_TEMP_Kbest，将该中心左边的数组元素总个数记为NUM_L_TEMP_Kbest；4)若NUM_R_TEMP_Kbest大于N×NUM_L_TEMP_Kbest，则输出主题个数Kbest＝TEMP_Kbest；若NUM_L_TEMP_Kbest大于NUM_R_TEMP_Kbest，则令KMAX＝KMAX+m，K0＝...

【技术特征摘要】
1.一种基于主题间最小平均相似度的最优LDA模型自动选择方法，其步骤包括：1)在初始设定区间[K0,KMAX]内改变K值，对于选取的每一K值：将目标文档集合的主题个数初始值设为当前K值，利用LDA模型对该目标文档集合进行训练，得到K个主题-词的概率分布向量；计算该K个主题-词的概率分布向量之间的平均相似度ACK并将其存储到全局平均相似度数组AC_Array；全局平均相似度数组AC_Array为一维数组；2)从该全局平均相似度数组AC_Array中选取平均相似度最小值作为临时最小平均相似度；该临时最小平均相似度对应的主题个数为TEMP_Kbest；3)在该全局平均相似度数组AC_Array中，以当前临时最小平均相似度所在位置为中心，将该中心右边的数组元素总个数记为NUM_R_TEMP_Kbest，将该中心左边的数组元素总个数记为NUM_L_TEMP_Kbest；4)若NUM_R_TEMP_Kbest大于N×NUM_L_TEMP_Kbest，则输出主题个数Kbest＝TEMP_Kbest；若NUM_L_TEMP_Kbest大于NUM_R_TEMP_Kbest，则...

【专利技术属性】
技术研发人员：汪洋，孙启超，韩宁，
申请(专利权)人：中国软件与技术服务股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人