基于FrankCopula函数的主题相关性建模方法技术

技术编号:19122201 阅读:219 留言:0更新日期:2018-10-10 05:15
基于FrankCopula函数的主题相关性建模方法,包括如下步骤:随机初始化参数并选取超参数;根据初始化参数和超参数,使用LDA模型生成第一篇文档的主题分布和主题词分布;根据第一篇文档的主题分布和主题词分布,结合Copula函数计算每一篇文档的主题分布和主题词分布;根据计算的主题分布和主题词分布,对每篇文档的主题和主题词排序,根据概率大小选取文档的主题和主题词输出。本发明专利技术针对目前LDA模型中文档‑主题分布不考虑连续文档间的互相影响的问题,引入Frank Copula工具来生成连续文档的主题相关性模型,考虑了前一篇对后一篇文档的主题分布的影响,提高了主题模型的准确度。

【技术实现步骤摘要】
基于FrankCopula函数的主题相关性建模方法
本专利技术属于机器学习的自然语言处理领域,具体涉及一种基于FrankCopula函数的主题相关性建模方法。
技术介绍
在机器学习的自然语言处理等领域,主题模型是用来在一系列文档中发现抽象主题的一种统计模型。如果一篇文章有一个中心思想,那么一些特定词语会更频繁的出现。简单而言,主题挖掘就是要找到表达文章中心思想的主题词。主题挖掘的主要原因有文件数量迅速增长,依靠人工的方式很难实现对全部文本信息的主题进行提取,所以将该流程自动化已经势在必行,让机器代替人工去对文本的主题进行提取和整理。经典的主题模型是D.M.Blei在2003年提出的LDA(LatentDirichletAllocation)模型。Blei以PLSA(LDA之前的另一个概率模型)为基础,加上了贝叶斯先验,从而专利技术了LDA算法。LDA是一种无监督机器学习模型,可以用来识别语料库中潜在的主题信息,并且假设每个文档都可以表示成若干潜在主题的混合分布。该方法定义文档的生成过程,首先预设一定量的主题且每个主题包含的词汇服从Dirichlet分布;然后从主题分布中抽取一个主题,再从上述主题包含的单词分布中抽取一个单词;最后重复上述过程,直至生成一篇文档。LDA的一个经典特征是每个文档的主题分布都是独立的,此假设在某些情况下是不现实的。在文档流中,上一篇文档的主题分布势必会对下一篇的主题分布产生不可忽视的影响。由于FrankCopula函数将联合分布和边缘分布结合,可以描述多个随机变量的相关性;其对称性又保证了变量相关性不受变量排列顺序的影响。FrankCopula可以作为分析处理多维数据之间相关性的有效工具,所以本专利技术引入该函数,将主题分布视为随机变量,建立连续文档的主题相关性模型。具体来说,FrankCopula是Copula函数族中的一个分支。形象地说,可以把Copula叫做“连接函数”或“相依函数”,它是把多个随机变量的联合分布与它们各自的边缘分布连接起来,p维Copula的数学表达为:其中,xi(i=1...p)是第i维随机变量且x~U[0,1]p,是变量xi的边缘分布,C是对应的唯一的Copula函数,是这p个随机变量的联合分布。特别地,对于Copula族的单因子分支FrankCopula,给出如下定义:其中,u,v是两个随机变量,λ是从0到无穷大的整数使得FrankCopula可以表示相关性从独立到均等的两个随机变量。
技术实现思路
本专利技术针对现有技术中的不足,提供一种基于FrankCopula函数的主题相关性建模方法。针对目前LDA模型中文档主题分布不考虑连续文档间的互相影响的问题,引入FrankCopula工具来建立相邻文档的主题相关性模型。为实现上述目的,本专利技术采用以下技术方案:一种基于FrankCopula函数的主题相关性建模方法,其特征在于,包括如下步骤:步骤一、随机初始化参数并选取超参数;步骤二、根据初始化参数和超参数,使用LDA模型生成第一篇文档的主题分布和主题词分布;步骤三、根据第一篇文档的主题分布和主题词分布,结合Copula函数计算每一篇文档的主题分布和主题词分布;步骤四、根据计算的主题分布和主题词分布,对每篇文档的主题和主题词排序,根据概率大小选取文档的主题和主题词输出。为优化上述技术方案,采取的具体措施还包括:所述步骤一具体包括:选取超参数α,β,初始化λ1=μ1=0,对于第d篇文档随机初始化λd~U[0,∞],μd~U[0,∞],表示从0到正无穷的均匀分布中随机选取λd,μd,其中,λd表示控制第d-1篇文档对第d篇文档的文档-主题分布影响的参数,μd表示控制第d-1篇文档对第d篇文档的主题-词分布影响的参数。所述步骤二具体包括:使用经典的LDA模型生成第一篇文档的主题分布θ1~Dir(α)和主题词分布其中,Dir(α)表示服从超参数α的Dirichlet分布,Dir(β)表示服从超参数β的Dirichlet分布。所述步骤三具体包括:对于第d篇文档的第k个主题,1≤k≤K,K表示主题数:根据公式生成其中,Υd表示第d篇文档的随机向量,表示向量Υd对应的第k纬度值,表示向量Υd-1对应的第k纬度值,表示的参数为(α,1)的gamma分布的概率密度函数,是关于λd的Copula函数,是的边缘分布,P表示条件概率,表示对影响的概率;计算其中,表示第d篇文档第k个主题的主题-词分布,表示第d-1篇文档第k个主题的主题-词分布;计算θd=Υd/||Υd||L1,其中,θd表示第d篇文档的主题分布,L1表示第一范数。所述步骤四具体包括:根据第d篇文档的主题分布θd和主题词分布进行排序,输出文档的主题和主题词。本专利技术的有益效果是:首先,根据标准LDA模型生成第一篇文档的主题分布概率模型,然后,使用FrankCopula函数在前一篇文档的主题分布的基础上生成新的文档主题概率模型,重复上述过程生成多个连续文档的主题分布;对于每个话题,通过狄利克雷分布和混合分布生成主题-词汇概率模型;最后,使用吉布斯取样求解上述概率模型(即先验分布),通过循环不断更新各参数的值,从而使得主题和主题-词分布不断逼近真实概率分布(即后验分布)。针对目前LDA模型中文档-主题分布不考虑连续文档间的互相影响的问题,引入FrankCopula工具来生成连续文档的主题相关性模型,考虑了前一篇对后一篇文档的主题分布的影响,提高了主题模型的准确度。附图说明图1是本专利技术的总体流程图。图2是标准LDA的概率模型。图3是本专利技术提出的流式LDA模型。具体实施方式现在结合附图对本专利技术作进一步详细的说明。如图1所示的模型建立和求解流程,具体包括如下步骤:步骤1、初始化,选取超参数α,β、λ1=μ1=0,对于每一篇文档d随机初始化λd~U[0,∞],μd~U[0,∞],表示从0到正无穷的均匀分布中随机选取λd,μd,其中,λd表示控制第d-1篇文档对第d篇文档的文档-主题分布影响的参数,μd表示控制第d-1篇文档对第d篇文档的主题-词分布影响的参数。步骤2、如图2所示,使用经典的LDA模型生成第一篇文档的主题分布θ1~Dir(α)和主题词分布其中,Dir(α)表示服从超参数α的Dirichlet分布,Dir(β)表示服从超参数β的Dirichlet分布。此处,第一篇文档没有前驱文档,其主题和主题词分布不被参数λ,μ影响。步骤3、如图3所示,对于第d篇文档,2≤d≤D,D表示文档数,进行遍历:步骤301、对于第d篇文档中每一个主题k,1≤k≤K,K表示主题数:生成其中,Υd表示第d篇文档的随机向量,表示向量Υd对应的第k纬度值,表示向量Υd-1对应的第k纬度值,表示的参数为(α,1)的gamma分布的概率密度函数,是的边缘分布,是关于λd的Copula函数,用于连续文档间主题相关性的建模,表示对影响的概率。步骤302、计算服从多维的Gamma分布:其中,P(Υd|Υd-1,α,λd)表示Υd-1,α,λd对Υd影响的概率,Ωd,k表示第d篇文档中单词属于第k个主题的次数,N表示单词数。步骤303、θd=Υd/||Υd||L1,其中,θd表示第d篇文档的主题分布,L1表示第一范数。步骤304、结合吉布斯采样算法使用下式更新其本文档来自技高网
...
基于FrankCopula函数的主题相关性建模方法

【技术保护点】
1.一种基于FrankCopula函数的主题相关性建模方法,其特征在于,包括如下步骤:步骤一、随机初始化参数并选取超参数;步骤二、根据初始化参数和超参数,使用LDA模型生成第一篇文档的主题分布和主题词分布;步骤三、根据第一篇文档的主题分布和主题词分布,结合Copula函数计算每一篇文档的主题分布和主题词分布;步骤四、根据计算的主题分布和主题词分布,对每篇文档的主题和主题词排序,根据概率大小选取文档的主题和主题词输出。

【技术特征摘要】
1.一种基于FrankCopula函数的主题相关性建模方法,其特征在于,包括如下步骤:步骤一、随机初始化参数并选取超参数;步骤二、根据初始化参数和超参数,使用LDA模型生成第一篇文档的主题分布和主题词分布;步骤三、根据第一篇文档的主题分布和主题词分布,结合Copula函数计算每一篇文档的主题分布和主题词分布;步骤四、根据计算的主题分布和主题词分布,对每篇文档的主题和主题词排序,根据概率大小选取文档的主题和主题词输出。2.如权利要求1所述的一种基于FrankCopula函数的主题相关性建模方法,其特征在于:所述步骤一具体包括:选取超参数α,β,初始化λ1=μ1=0,对于第d篇文档随机初始化λd~U[0,∞],μd~U[0,∞],表示从0到正无穷的均匀分布中随机选取λd,μd,其中,λd表示控制第d-1篇文档对第d篇文档的文档-主题分布影响的参数,μd表示控制第d-1篇文档对第d篇文档的主题-词分布影响的参数。3.如权利要求2所述的一种基于FrankCopula函数的主题相关性建模方法,其特征在于:所述步骤二具体包括:使用经典的LDA...

【专利技术属性】
技术研发人员:马廷淮李婧梁新年蔡青王红妹杨慧敏
申请(专利权)人:南京信息工程大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1