当前位置: 首页 > 专利查询>复旦大学专利>正文

一种基于特定划分的主题模型下的文档生成方法技术

技术编号:16837328 阅读:43 留言:0更新日期:2017-12-19 19:52
本发明专利技术属于数据挖掘技术领域,具体为一种基于特定划分的主题模型下的文档生成方法。本发明专利技术根据某种给定的文本数据库划分方式,加入子集的概念,例如对于一些文本数据库,像新闻数据库,某个时间片段中的文本的主题分布具有一定的相似性,特别是那些报告相同事件的不同新闻频道的文本,利用时间片段的属性就可以对数据库进行划分,分成一个个的子集。由此,本发明专利技术提出新的文本数据库上的主题模型(DbLDA);在DbLDA中,每个文档的生成的具体步骤为:生成主题矩阵;对一个子集生成主题分布:对子集中的文章,生成主题分布;对每个词,选择一个主题,选择一个单词。可应用于带有结构化属性的文本数据库。

A document generation method based on a specific topic model

The invention belongs to the field of data mining, which is specifically a method of document generation based on the subject model of specific division. According to the text database partition a given subset, adding the concept, for example some text database, like news database, a text fragment in the theme of time distribution has a certain similarity, especially those who report the same events of different news text, using attribute can be divided into time segments the database is divided into one subset. Thus, the invention proposes a topic model on new text database (DbLDA); in DbLDA, the specific steps to generate each document to generate topic matrix; generate topic distribution on a subset of the sub focus article, generating the subject distribution; for each word, choose a theme, select a words. It can be applied to text databases with structured attributes.

【技术实现步骤摘要】
一种基于特定划分的主题模型下的文档生成方法
本专利技术属于数据挖掘
,具体涉及一种基于特定划分的主题模型下的文档生成方法,应用于带有结构化属性的文本数据库。
技术介绍
利用主题模型对文本数据进行处理、分析,在如今的数据挖掘领域应用十分广泛,其中LDA(隐含狄利克雷分布,LatentDirichletAllocation)作为一个简单易用的主题模型受到了广泛的关注。LDA假设每篇文本都来源于一个独立的生成过程,因此忽略了文本之间的联系,然而这可能会导致模型效果的下降。大量的文本数据不止包含结构化的属性,比如时间,地点等,而且包含非结构化的文本内容属性。文本数据能够依据这些结构化的属性组织成许多子集,存储在文本数据库中,这就形成了文本数据库的一种特定的划分。基于观察,划分到同一个子集上的文本具有一些共性,即文本之间存在联系。例如对新闻数据库来说,同一时间或同一地点上的新闻数据可能同时关注于一些重要事件,像是某种病毒的传播或者是某个台风的运动轨迹。根据这个现象,整个新闻数据库可以依据它们的时间或位置属性划分成一些具有共性子集。为了分析这种可以进行子集划分的文档集合,本专利技术从生成模本文档来自技高网...
一种基于特定划分的主题模型下的文档生成方法

【技术保护点】
一种基于特定划分的主题模型下的文档生成方法,其特征在于,所述主题模型为文本数据库上的隐含狄利克雷分布,记为DbLDA;在DbLDA中,每个文档生成的具体步骤如下:步骤(1)、生成主题矩阵:φk~Dir(β);步骤(2)、对一个子集生成主题分布:

【技术特征摘要】
1.一种基于特定划分的主题模型下的文档生成方法,其特征在于,所述主题模型为文本数据库上的隐含狄利克雷分布,记为DbLDA;在DbLDA中,每个文档生成的具体步骤如下:步骤(1)、生成主题矩阵:φk~Dir(β);步骤(2)、对一个子集生成主题分布:步骤(3)、对子集中的文章,生成主题分布:步骤(4)、对每个词(a)选择一个主题:zs,d,n~Mult(π(θ′s,d));(b)选择一个单词:ws,d,n|zs,d,n~Mult(φk);其中,是从多项分布参数向量到自然向量的映射:c是一个常数,每个多项分布参数向量对应有一个自然参数向量族;π是从自然参数向量映射回多项分布参数向量,其中,所用到参数和符号说明如下2.根据权利要求1所述的基于特定划分的主题模型下的文档生成方法,其特征在于,使用收缩变分贝叶斯的方法对模型进行近似推断;所谓收缩就是将模型中的一些隐变量通过求边际积分的方式从后验分布中去除;对于变分法,通过下式将问题转化一个最大化问题;事实的概率对数等于KL散度加上事实下界,记为ELBO,因此最小化KL散度是通过最大化ELBO得到:由于DbLDA中的一个子集中一篇文章的主题分布θ′难以通过求边际积分去除,所以只显示建模子集的平均主题分布和主题矩阵θ,的依赖;将这种做法称为“部分收缩变分贝叶斯”;因此,变分后验分布有如下形式:其中,θ′服从于变分高斯分布z服从于变分多项分布于是,ELBO就变成:其中,是变分分布的熵。3.根据权利要求2所述的基于特定划分的主题模型下的文档生成方法,其特征在于,所述最大化ELBO的具体步骤为:首先,关于和最大化ELBO;由于对这两个变分分布没有任何限制,所以最大值在处得到,即变分后验等于真实后验时达到;简化后,ELBO变为:然后,根据Db...

【专利技术属性】
技术研发人员:周凯文杨智慧马会心何震瀛荆一楠王晓阳
申请(专利权)人:复旦大学
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1