一种基于循环聚焦机制进行文档主题建模的方法技术

技术编号:15616702 阅读:51 留言:0更新日期:2017-06-14 03:32
本发明专利技术提供一种基于循环聚焦机制进行文档主题建模的方法,通过提供一种能够同时利用文档中单词信息,以及句子之间的序列信息,对文档进行有效建模;并利用聚焦机制对句子语义连贯性进行权重学习,可充分利用句子间主题的加权依赖性,从而学习到更加有效的文本向量。

【技术实现步骤摘要】
一种基于循环聚焦机制进行文档主题建模的方法技术背景本专利技术涉及文本建模领域,更具体的,涉及一种基于循环聚焦机制进行文档主题建模的方法。
技术介绍
使用贝叶斯方法进行无结构文本建模的主要技术是主题模型。传统主题模型的方法体系是建立在词袋模型的假设下,将文本定义为隐含主题空间上的向量分布,而隐含主题又定义为词典上的向量分布。当使用主题模型时,可以将文档映射到隐含主题空间,使用主题分布作为文档向量,从而进行文本检索、聚类、分类等数据挖掘任务。主题模型通常假设文本中的单词是无序的,即词袋模型假设,这一假设能够帮助大规模的文本进行快速有效的建模。然而,文本是基于词语,句子,甚至段落的序列数据,这些序列特征构成了文本本身复杂的语义和机构信息。有些方法利用了词语的有序性对文本进行建模,例如基于n-gram的贝叶斯技术,以及基于循环神经网络的文本建模技术。然而上述现有技术存在以下缺点:尽管主题模型被广泛应用于文本建模,但是句子之间的连贯一致性,即句子层面的序列信息,却被忽略。句子间的连贯性,是文本数据中天然存在的结构化信息,能够很好地反映文本中的语义信息。这种现象可以理解为句子之间的语义连贯性,体现在当前某个句子的主题是依赖于它前面的某几个句子。而且,这种主题层面的依赖并不是等同的,是存在一定的权重大小的:即当前句子的主题分布,是加权依赖它前面的若干句子。这就必须提出一套能够同时考虑句子之间这种语义连贯性和其加权依赖性的方法,以确保能够充分利用句子之间丰富的序列信息,从而更加有效计算文本语义向量。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此,本专利技术的目的在于,提供一种基于循环聚焦机制进行文档主题建模的方法,通过提供一种能够同时利用文档中单词信息,以及句子之间的序列信息,对文档进行有效建模;并利用聚焦机制对句子语义连贯性进行权重学习,可充分利用句子间主题的加权依赖性,从而学习到更加有效的文本向量。为实现上述目的,本专利技术提供了一种基于循环聚焦机制进行文档主题建模的方法,包括:步骤一,对于文档di,设置C值,所述C表示当前句子受多少之前句子的影响值;步骤二,设定文档di的主题分布为θd,文档di在主题空间上的每一维含量为ρk,令θd为RABP(G0,π)中的基础分布G0;步骤三,遍历文档di中的每一个句子步骤四,遍历文档中的每一个句子与句子中的单词,计算文档di在主题空间上的每一维含量为ρk;步骤五,归一化ρ,从而得到文档di的主题分布θd。更具体的,在步骤一之前还包括:(1)针对每一个主题k,采样βk~Dir(π),βk为主题k在词典上的分布;(2)对于每一个文档di,首先采样得到该文档的主题分布θ~Dir(α),其中α为超参数,θ作为基础分布GC;(3)针对文档di中的每一个句子使用RABP(G0,π)采样得到当前句子的主题分布(4)针对句子中的每一个单词w,使用采样得到当前句子中的每一个单词;D={d1,...,dM}表示为一个具有M篇文档的文档集合,其中di表示第i篇文档;对于每一篇文档di,其中表示文档中的一个句子,r表示句子的个数。对于每一个句子其中表示一个单词,n为句子中单词的个数。更具体的,所述步骤三具体为:求出所对应的聚焦向量∈j中G0所对应的权重分量求出句子中每一个单词wn所赋予的主题标号。更具体的,所述求出句子中每一个单词wn所赋予的主题标具体为:通过以下公式,求出句子中每一个单词wn所赋予的主题标号:更具体的,所述步骤四具体为:通过下面的公式计算文档di在主题空间上的每一维含量为ρk:更具体的,所述RABP(G0,π)过程为:从时刻t=1开始,从G0中采样出样本θ1;对于当前时刻t>1,首先从Dir(π)中采样出样本∈,这里Dir(π)表示狄雷克雷分布,样本∈=(∈1,∈2,...,∈C)T;对于∈i,i∈(1,...,C-1),我们获得t-C+1时刻到t-1时刻的前序分布,令当前时刻的分布为对于∈C,令当前时刻的分布为θt=∈C·G0;其中,C为过去时间点的时间窗口,即过去时间点的个数,设定多少过去的时间点会影响当前时间点;∈为当前时间点的聚焦向量,用来表示过去时间点的权重信息;在此步骤后,当前时刻t的分布可以表示为:此循环聚焦贝叶斯过程为RABP(G0,π),其中G0是一个基础分布,π是聚焦超参数。通过本专利技术提供的一种基于循环聚焦机制进行文档主题建模的方法,通过提供一种能够同时利用文档中单词信息,以及句子之间的序列信息,对文档进行有效建模;并利用聚焦机制对句子语义连贯性进行权重学习,可充分利用句子间主题的加权依赖性,从而学习到更加有效的文本向量。与现有技术相比,本专利技术提出的技术方案中,建立了句子间主题分布的连贯性关系,通过句子层面的主题建模,从而弥补传统主题模型无法利用句子序列信息的弱点,从而获得更有效的文档向量模型。附图说明图1示出了本专利技术一种基于循环聚焦机制进行文档主题建模的方法的流程图;图2示出了本专利技术一种基于循环聚焦机制进行文档主题建模的方法的计算流程图。具体实施方式为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲突的情况下,本申请的实施例及实施例中的特征可以相互组合。在下面的描述中阐述了很多具体细节以便于充分理解本专利技术,但是,本专利技术还可以采用其他不同于在此描述的方式来实施,因此,本专利技术的保护范围并不受下面公开的具体实施例的限制。图1示出了本专利技术一种基于循环聚焦机制进行文档主题建模的方法的流程图。首先,循环聚焦贝叶斯过程是不同于传统贝叶斯过程的数学模型,例如循环狄雷克雷过程和狄雷克雷-霍克斯过程。循环聚焦贝叶斯过程是用来分析时序信息的一种数学模型,它利用动态聚焦机制,充分考虑过去的时间点对当前时间点的影响,从而获得当前时间点的时序积累信息。这个过程我们定义为RABP(G0,π),其中G0是一个基础分布,π是聚焦超参数。本过程的步骤如下:(1)从时刻t=1开始,从G0中采样出样本θ1(2)对于当前时刻t>1,首先从Dir(π)中采样出样本∈,这里Dir(π)表示狄雷克雷分布,样本∈=(∈1,∈2,...,∈C)T。(3)对于∈i,i∈(1,...,C-1),我们获得t-C+1时刻到t-1时刻的前序分布,令当前时刻的分布为(4)对于∈C,令当前时刻的分布为θt=∈C·G0。上述步骤中,C为过去时间点的时间窗口,即过去时间点的个数,设定多少过去的时间点会影响当前时间点。∈为当前时间点的聚焦向量,用来表示过去时间点的权重信息。在此步骤后,当前时刻t的分布可以表示为此循环聚焦贝叶斯过程我们称之为RABP(G0,π),它主要考虑以往时间点对当前时间点的影响,这个过程可以用于对文档句子的建模。在本专利技术的技术方案中,我们定义如下的数学描述方式:D={d1,...,dM}表示为一个具有M篇文档的文档集合,其中di表示第i篇文档。对于每一篇文档di,其中表示文档中的一个句子,r表示句子的个数。对于每一个句子其中表示一个单词,n为句子中单词的个数。在文档中,一个句子的主题分布往往与它之前的句子关系十分相近,这在语言学里面被称之为语义一致性或连贯性。我们把文档d看成许多句子的序列,本专利技术旨在捕捉前本文档来自技高网...
一种基于循环聚焦机制进行文档主题建模的方法

【技术保护点】
一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,包括:步骤一,对于文档d

【技术特征摘要】
1.一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,包括:步骤一,对于文档di,设置C值,所述C表示当前句子受多少之前句子的影响值;步骤二,设定文档di的主题分布为θd,文档di在主题空间上的每一维含量为ρk,令θd为RABP(G0,π)中的基础分布G0;步骤三,遍历文档di中的每一个句子步骤四,遍历文档中的每一个句子与句子中的单词,计算文档di在主题空间上的每一维含量为ρk;步骤五,归一化ρ,从而得到文档di的主题分布θd。2.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,在步骤一之前还包括:(1)针对每一个主题k,采样βk~Dir(π),βk为主题k在词典上的分布;(2)对于每一个文档di,首先采样得到该文档的主题分布θ~Dir(α),其中α为超参数,θ作为基础分布GC;(3)针对文档di中的每一个句子使用RSBP(G0,π)采样得到当前句子的主题分布(4)针对句子中的每一个单词w,使用采样得到当前句子中的每一个单词;D={d1,...,dM}表示为一个具有M篇文档的文档集合,其中di表示第i篇文档;对于每一篇文档di,其中表示文档中的一个句子,r表示句子的个数。对于每一个句子其中表示一个单词,n为句子中单词的个数。3.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征在于,所述步骤三具体为:求出所对应的聚焦向量∈j中G0所对应的权重分量求出句子中每一个单词wn所赋予的主题标号。4.根据权利要求3所述的一种基于循环聚焦机制进行文档主题建模的方法,其特征...

【专利技术属性】
技术研发人员:李双印潘嵘杨洋
申请(专利权)人:深圳爱拼信息科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1