基于泊松‑伽玛置信网络主题模型的文本分析方法技术

技术编号：14694946 阅读：77 留言：0更新日期：2017-02-23 19:04

一种基于泊松‑伽玛置信网络主题模型的文本分析方法，主要解决现有技术中面临的过拟合问题和只能对文本内容的单层主题信息进行提取的问题。主要步骤是：建立训练集和测试集；设置泊松‑伽玛置信网络及其参数；对泊松‑伽玛置信网络进行分层；对五个子网络的参数分别进行初始化；训练当前子网络；保存训练后的当前子网络的全局参数；测试当前子网络；对文本进行分类；输出文本分类正确率和预测文本类别。本发明专利技术属于贝叶斯网络中的一种，采用逐层训练和联合训练的方法对网络进行训练，利用吉布斯采样方法对网络参数进行学习，从而获得多层字典矩阵，完成对文本内容的多层主题信息的提取。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于自然语言处理
，更进一步涉及自然语言处理
中的一种基于泊松-伽玛置信网络PGBN(PoissonGammaBeliefNetwork)主题模型的文本分析方法。本专利技术可用于对各类电子类文本进行主题提取、分类和新文本的生成。
技术介绍
目前，主题模型在自然语言处理领域受到越来越多的关注，同时被广泛应用于实际生活中，如对各类电子类文本进行主题提取、分类和新文本的生成等。随着互联网架构、存储科技以及其他有关技术的发展，各种各样的网络数据飞速增长，使得高效利用这些大规模数据进行文本分析具有很大的挑战。和传统的基于统计的一些文本归纳方法相比，主题模型在可观测的文档层和单词层间增加了一个隐含的主题层，并认为文档包含一个或若干多个主题，每个主题又是不同比例单词的组合。这一新增加的主题隐含层能表征一篇文档所蕴含的语义内容，而且对海量数据通过主题进行表达而达到降维效果。中国科学技术大学在其申请的专利“文本分类方法”(专利申请号200910142286.6，公开号CN101587493B)中公开了一种基于LDA主题模型对文本的分类方法。该方法实现的具体步骤是，首先，根据类别将初始训练文本集划分为多个子集，并从每个子集中抽去对应的概率主题模型，其中每个子集包含相同类别的文本；其次，利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别；然后，根据所述多个子集对应的均衡训练文本集构造分类器；最后，利用所述分类器进行文本分类。该专利申请所公开的方法，虽然在传统文本分类方法的基础上改善了数据倾斜的问题，提高了文本的分类正确率，但是，该方法仍然存在的不...
<a href="http://www.xjishu.com/zhuanli/55/201610828754.html" title="基于泊松‑伽玛置信网络主题模型的文本分析方法原文来自X技术">基于泊松‑伽玛置信网络主题模型的文本分析方法</a>

【技术保护点】
一种基于泊松‑伽玛置信网络主题模型的文本分析方法，包括如下步骤：(1)建立训练集和测试集：(1a)从文本语料库中随机选取训练文本集和测试文本集；(1b)采用词袋方法，将训练文本集和测试文本集的格式由文本信息转化为数字信息的训练集和测试集；(2)设置泊松‑伽玛置信网络及其参数：(2a)设置泊松‑伽玛置信网络的总网络层数、输入层维度、隐层维度、输出层内容；(2b)设置泊松‑伽玛置信网络的网络参数；(2c)在{1000,1500}两个值中任意选取一个值作为训练迭代次数；(2d)将测试迭代次数设置为1500次；(3)对泊松‑伽玛置信网络进行分层：(3a)将泊松‑伽玛置信网络的第1层作为第1个子网络；(3b)将泊松‑伽玛置信网络的第1层和第2层，作为第2个子网络；(3c)将泊松‑伽玛置信网络的第1层、第2层和第3层，作为第3个子网络；(3d)将泊松‑伽玛置信网络的第1层、第2层、第3层和第4层，作为第4个子网络；(3e)将泊松‑伽玛置信网络的第1层、第2层、第3层、第4层和第5层，作为第5个子网络；(4)对第1个子网络的参数进行初始化；(4a)按照下式，对第1个子网络的泊松‑伽玛置信网络参数中所...

【技术特征摘要】
1.一种基于泊松-伽玛置信网络主题模型的文本分析方法，包括如下步骤：(1)建立训练集和测试集：(1a)从文本语料库中随机选取训练文本集和测试文本集；(1b)采用词袋方法，将训练文本集和测试文本集的格式由文本信息转化...

【专利技术属性】
技术研发人员：陈渤，翟颖，丛玉来，
申请(专利权)人：西安电子科技大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人