一种基于循环聚焦机制进行文档主题建模的方法技术

技术编号：15616702 阅读：51 留言：0更新日期：2017-06-14 03:32

本发明专利技术提供一种基于循环聚焦机制进行文档主题建模的方法，通过提供一种能够同时利用文档中单词信息，以及句子之间的序列信息，对文档进行有效建模；并利用聚焦机制对句子语义连贯性进行权重学习，可充分利用句子间主题的加权依赖性，从而学习到更加有效的文本向量。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于循环聚焦机制进行文档主题建模的方法技术背景本专利技术涉及文本建模领域，更具体的，涉及一种基于循环聚焦机制进行文档主题建模的方法。
技术介绍
使用贝叶斯方法进行无结构文本建模的主要技术是主题模型。传统主题模型的方法体系是建立在词袋模型的假设下，将文本定义为隐含主题空间上的向量分布，而隐含主题又定义为词典上的向量分布。当使用主题模型时，可以将文档映射到隐含主题空间，使用主题分布作为文档向量，从而进行文本检索、聚类、分类等数据挖掘任务。主题模型通常假设文本中的单词是无序的，即词袋模型假设，这一假设能够帮助大规模的文本进行快速有效的建模。然而，文本是基于词语，句子，甚至段落的序列数据，这些序列特征构成了文本本身复杂的语义和机构信息。有些方法利用了词语的有序性对文本进行建模，例如基于n-gram的贝叶斯技术，以及基于循环神经网络的文本建模技术。然而上述现有技术存在以下缺点：尽管主题模型被广泛应用于文本建模，但是句子之间的连贯一致性，即句子层面的序列信息，却被忽略。句子间的连贯性，是文本数据中天然存在的结构化信息，能够很好地反映文本中的语义信息。这种现象可以理解为句子之间的语义连贯性，体现在当前某个句子的主题是依赖于它前面的某几个句子。而且，这种主题层面的依赖并不是等同的，是存在一定的权重大小的：即当前句子的主题分布，是加权依赖它前面的若干句子。这就必须提出一套能够同时考虑句子之间这种语义连贯性和其加权依赖性的方法，以确保能够充分利用句子之间丰富的序列信息，从而更加有效计算文本语义向量。
技术实现思路
本专利技术旨在至少解决现有技术中存在的技术问题之一。为此，本专利技术...
一种基于循环聚焦机制进行文档主题建模的方法

【技术保护点】
一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，包括：步骤一，对于文档d

【技术特征摘要】
1.一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，包括：步骤一，对于文档di，设置C值，所述C表示当前句子受多少之前句子的影响值；步骤二，设定文档di的主题分布为θd，文档di在主题空间上的每一维含量为ρk，令θd为RABP(G0，π)中的基础分布G0；步骤三，遍历文档di中的每一个句子步骤四，遍历文档中的每一个句子与句子中的单词，计算文档di在主题空间上的每一维含量为ρk；步骤五，归一化ρ，从而得到文档di的主题分布θd。2.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，在步骤一之前还包括：(1)针对每一个主题k，采样βk～Dir(π)，βk为主题k在词典上的分布；(2)对于每一个文档di，首先采样得到该文档的主题分布θ～Dir(α)，其中α为超参数，θ作为基础分布GC；(3)针对文档di中的每一个句子使用RSBP(G0，π)采样得到当前句子的主题分布(4)针对句子中的每一个单词w，使用采样得到当前句子中的每一个单词；D＝{d1，...，dM}表示为一个具有M篇文档的文档集合，其中di表示第i篇文档；对于每一篇文档di，其中表示文档中的一个句子，r表示句子的个数。对于每一个句子其中表示一个单词，n为句子中单词的个数。3.根据权利要求1所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征在于，所述步骤三具体为：求出所对应的聚焦向量∈j中G0所对应的权重分量求出句子中每一个单词wn所赋予的主题标号。4.根据权利要求3所述的一种基于循环聚焦机制进行文档主题建模的方法，其特征...

【专利技术属性】
技术研发人员：李双印，潘嵘，杨洋，
申请(专利权)人：深圳爱拼信息科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人