基于泊松‑伽玛置信网络主题模型的文本分析方法技术

技术编号:14694946 阅读:77 留言:0更新日期:2017-02-23 19:04
一种基于泊松‑伽玛置信网络主题模型的文本分析方法,主要解决现有技术中面临的过拟合问题和只能对文本内容的单层主题信息进行提取的问题。主要步骤是:建立训练集和测试集;设置泊松‑伽玛置信网络及其参数;对泊松‑伽玛置信网络进行分层;对五个子网络的参数分别进行初始化;训练当前子网络;保存训练后的当前子网络的全局参数;测试当前子网络;对文本进行分类;输出文本分类正确率和预测文本类别。本发明专利技术属于贝叶斯网络中的一种,采用逐层训练和联合训练的方法对网络进行训练,利用吉布斯采样方法对网络参数进行学习,从而获得多层字典矩阵,完成对文本内容的多层主题信息的提取。

【技术实现步骤摘要】

本专利技术属于自然语言处理
,更进一步涉及自然语言处理
中的一种基于泊松-伽玛置信网络PGBN(PoissonGammaBeliefNetwork)主题模型的文本分析方法。本专利技术可用于对各类电子类文本进行主题提取、分类和新文本的生成。
技术介绍
目前,主题模型在自然语言处理领域受到越来越多的关注,同时被广泛应用于实际生活中,如对各类电子类文本进行主题提取、分类和新文本的生成等。随着互联网架构、存储科技以及其他有关技术的发展,各种各样的网络数据飞速增长,使得高效利用这些大规模数据进行文本分析具有很大的挑战。和传统的基于统计的一些文本归纳方法相比,主题模型在可观测的文档层和单词层间增加了一个隐含的主题层,并认为文档包含一个或若干多个主题,每个主题又是不同比例单词的组合。这一新增加的主题隐含层能表征一篇文档所蕴含的语义内容,而且对海量数据通过主题进行表达而达到降维效果。中国科学技术大学在其申请的专利“文本分类方法”(专利申请号200910142286.6,公开号CN101587493B)中公开了一种基于LDA主题模型对文本的分类方法。该方法实现的具体步骤是,首先,根据类别将初始训练文本集划分为多个子集,并从每个子集中抽去对应的概率主题模型,其中每个子集包含相同类别的文本;其次,利用对应的概率主题模型生成新的文本来均衡所述多个子集的类别;然后,根据所述多个子集对应的均衡训练文本集构造分类器;最后,利用所述分类器进行文本分类。该专利申请所公开的方法,虽然在传统文本分类方法的基础上改善了数据倾斜的问题,提高了文本的分类正确率,但是,该方法仍然存在的不足之处是,由于该方法只能提取单层主题信息,无法对多层的主题信息进行提取,所以在表达文本所蕴含的语义内容方面无法得到令人满意的结果。贾会玲、吴晟、李英娜、李萌萌、杨玺、李川在其发表的论文“基于PLSA模型的观点句聚类算法研究”(ValueEngineering,1006-4311(2015)31-0167-03)提出一种基于PLSA模型针对互联网评论文本中观点句聚类的算法。该方法实现的具体步骤是,首先,对观点句集合做分词和词性标注处理,并过滤掉与评价对象相关但不是聚类方面的高频词,得到相应的词集;其次,利用所得词集,建立词-观点句矩阵,并利用SVD对矩阵进行降维处理;然后,利用PLSA对降维后的矩阵进行处理,得到观点句-潜在变量概率矩阵;最后,计算观点句相似度,并将相似度最大的归为一类,输出观点句聚类结果。虽然,PLSA主题模型对其原始模型进行了完善,文本聚类效果得到了显著提高,但是,该方法仍然存在的不足之处是,如果训练数据存在噪音或者训练数据太少会出现过拟合现象。
技术实现思路
本专利技术针对上述内容所公开的方法的不足,提出基于泊松-伽玛置信网络主题模型的文本分析方法,有效地避开了过拟合现象,完成文本内容多层主题信息的提取,并实现较高的文本分类正确率。实现本专利技术目的的具体思路是,本专利技术的泊松-伽玛置信网络属于贝叶斯网络中的一种,本专利技术采用逐层训练和联合训练的方法对泊松-伽玛置信网络进行训练,利用吉布斯采样方法对网络参数进行学习,从而获得多层字典矩阵,完成对文本内容的多层主题信息的提取。为实现本专利技术目的的具体步骤包括如下:(1)建立训练集和测试集:(1a)从文本语料库中随机选取训练文本集和测试文本集;(1b)采用词袋方法,将训练文本集和测试文本集的格式由文本信息转化为数字信息的训练集和测试集;(2)设置泊松-伽玛置信网络及其参数:(2a)设置泊松-伽玛置信网络的总网络层数、输入层维度、隐层维度、输出层内容;(2b)设置泊松-伽玛置信网络的网络参数;(2c)在{1000,1500本文档来自技高网
...
<a href="http://www.xjishu.com/zhuanli/55/201610828754.html" title="基于泊松‑伽玛置信网络主题模型的文本分析方法原文来自X技术">基于泊松‑伽玛置信网络主题模型的文本分析方法</a>

【技术保护点】
一种基于泊松‑伽玛置信网络主题模型的文本分析方法,包括如下步骤:(1)建立训练集和测试集:(1a)从文本语料库中随机选取训练文本集和测试文本集;(1b)采用词袋方法,将训练文本集和测试文本集的格式由文本信息转化为数字信息的训练集和测试集;(2)设置泊松‑伽玛置信网络及其参数:(2a)设置泊松‑伽玛置信网络的总网络层数、输入层维度、隐层维度、输出层内容;(2b)设置泊松‑伽玛置信网络的网络参数;(2c)在{1000,1500}两个值中任意选取一个值作为训练迭代次数;(2d)将测试迭代次数设置为1500次;(3)对泊松‑伽玛置信网络进行分层:(3a)将泊松‑伽玛置信网络的第1层作为第1个子网络;(3b)将泊松‑伽玛置信网络的第1层和第2层,作为第2个子网络;(3c)将泊松‑伽玛置信网络的第1层、第2层和第3层,作为第3个子网络;(3d)将泊松‑伽玛置信网络的第1层、第2层、第3层和第4层,作为第4个子网络;(3e)将泊松‑伽玛置信网络的第1层、第2层、第3层、第4层和第5层,作为第5个子网络;(4)对第1个子网络的参数进行初始化;(4a)按照下式,对第1个子网络的泊松‑伽玛置信网络参数中所包含的字典矩阵进行初始化;φa(1)~Dir(η(1),....,η(1))其中,φa(1)表示第1个子网络第1层初始化后的字典矩阵第a列的所有元素,a的取值范围是{1,2,....,K1max},K1max表示所有子网络第一个隐层维度的最大值,~表示等价关系符号,Dir表示狄利克雷分布,η(1)表示第1个子网络第1层狄利克雷分布的参数;(4b)按照下式,对第1个子网络的泊松‑伽玛置信网络参数中所包含的概率分布对应参数和超参数进行初始化;pi(1)=1‑e‑1其中,pi(1)表示第1个子网络初始化后的第1层中服从负二项式分布的第i个样本的参数;rm~Gamma(γ0/K1max,1/c0)其中,rm表示第1个子网络初始化后的顶层生成向量的第m个元素,~表示等价关系符号,Gamma表示伽玛分布,γ0=1,K1max表示所有子网络第一个隐层维度的最大值,γ0/K1max表示伽玛分布的形状参数,c0=1,表示伽玛分布尺度参数的倒数;(4c)按照下式,对第1个子网络的泊松‑伽玛置信网络参数中所包含的隐层单元矩阵进行初始化;θh(1)~Gamma[r,pi(1)1-pi(1)]]]>其中,θh(1)表示第1个子网络初始化后的第1层隐层单元矩阵第h列的所有元素,~表示等价关系符号,Gamma表示伽玛分布,r表示顶层的生成向量,pi(1)表示第1层中服从负二项式分布的第i个样本的参数,h与i的大小相等;(5)判断当前子网络的网络层数是否为2,若是,则执行步骤(6),否则,执行步骤(7);(6)对第2个子网络的参数进行初始化:(6a)将第1个子网络中的全局参数值,作为第2个子网络全局参数的初始值;(6b)按照下式,对第2个子网络顶层的泊松‑伽玛置信网络参数中所包含的字典矩阵进行初始化;φb(T)~Dir(τ(T),....,τ(T))其中,φb(T)表示第2个子网络顶层初始化后的字典矩阵第b列的所有元素,b的取值范围是{1,2,....,KT},KT表示第2个子网络顶层的维度值,~表示等价关系符号,Dir表示狄利克雷分布,τ(T)表示第2个子网络第T层狄利克雷分布参数的初始值;(6c)按照下式,对第2个子网络的泊松‑伽玛置信网络参数中所包含的概率分布对应的参数和超参数进行初始化;pc(2)~Beta(a0,b0)其中,pc(2)表示第2个子网络初始化后的第2层中服从负二项式分布的第c个样本的参数,~表示等价关系符号,Beta表示贝塔分布,a0表示贝塔分布的参数1,a0=0.01,b0表示贝塔分布的参数2,b0=0.01;cd(2)=(1‑pc(2))/pc(2)其中,cd(2)表示第2个子网络初始化后的第2层伽玛分布尺度参数的倒数,d表示输入数据中的第d个样本,pc(2)表示第2个子网络的第2层中服从负二项式分布的第c个样本的参数,d与c的大小相等;ce(3)~Gamma(e0,1/f0)其中,ce(3)表示第2个子网络的下一个子网络的第3层初始化后的伽玛分布尺度参数的倒数值,e表示输入数据中的第e个样本,~表示等价关系符号,Gamma表示伽玛分布,e0表示伽玛分布的形状参数,e0=1,f0表示伽玛分布尺度参数的倒数值,f0=1;(6d)按照下式,对第2个子网络顶层的泊松‑伽玛置信网络参数中所包含的生成向量进行初始化;rm~Gamma(γ0/KT,1/c0)其中,rm表示第2个子网络初始化后的顶层生成向量的第m个元素,~表示等价关系符号,Gamma表示伽玛分布,γ0=1,KT表示顶层的维度值,c0表示伽玛分布尺度参数的倒数值,c0...

【技术特征摘要】
1.一种基于泊松-伽玛置信网络主题模型的文本分析方法,包括如下步骤:(1)建立训练集和测试集:(1a)从文本语料库中随机选取训练文本集和测试文本集;(1b)采用词袋方法,将训练文本集和测试文本集的格式由文本信息转化...

【专利技术属性】
技术研发人员:陈渤翟颖丛玉来
申请(专利权)人:西安电子科技大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1