【技术实现步骤摘要】
基于金字塔池化与LDA主题模型的短文本分类方法
本专利技术涉及神经网络
,更具体的,涉及一种基于金字塔池化与LDA主题模型的短文本分类方法。
技术介绍
在期刊编辑工作中,有一项任务是针对作者的摘要的主题的不同向不同领域的专家进行审稿任务的分配。也就是需要针对短文本进行分类。在短文本分类之前,首先需要做的就是通过一种方法来获取短文本之间的相似性,才能对短文本进行分类。众所周知,短文本长度很短,文章数量又特别庞大,因此如果将短文本进行向量表示,会存在高维稀疏的问题。为了解决这个问题,很多研究者采用基于结合主题模型和词向量进行短文本分类;也有研究者采用短文本的词语,借助词库扩充短文本的语义信息。但是上述的方法有几个问题:(1)没有考虑短文本中词语的关联关系,也没有考虑词语之间的上下文关系。也就是假设文本的词语一样,但是如果将词语任意打乱进行排列,按照之前研究者的方法进行文本分类,得出的文本分类的结果就一样。但是,中国的词语具有多义性,不同词语之间的排列组合很可能表达不一样的效果,因此在进行短文本分类的时候,的 ...
【技术保护点】
1.一种基于金字塔池化与LDA主题模型的短文本分类方法,其特征在于:所述的短文本分类方法包括以下步骤:/nS1:构建文本向量矩阵;/nS2:通过金字塔池化模型将不同文本的向量固定为统一的向量表示;/nS3:采用LDA主题模型对步骤S1的文本向量进行文本主题概率向量提取,得出文本的主题概率向量;/nS4:将步骤S2通过金字塔池化模型后的向量与步骤S3得到的文本的主题概率向量进行拼接,采用余弦相似性的公式进行文本之间相似度计算,结合相似度阈值进行文本分类计算;/nS5:完成短文本的分类。/n
【技术特征摘要】
1.一种基于金字塔池化与LDA主题模型的短文本分类方法,其特征在于:所述的短文本分类方法包括以下步骤:
S1:构建文本向量矩阵;
S2:通过金字塔池化模型将不同文本的向量固定为统一的向量表示;
S3:采用LDA主题模型对步骤S1的文本向量进行文本主题概率向量提取,得出文本的主题概率向量;
S4:将步骤S2通过金字塔池化模型后的向量与步骤S3得到的文本的主题概率向量进行拼接,采用余弦相似性的公式进行文本之间相似度计算,结合相似度阈值进行文本分类计算;
S5:完成短文本的分类。
2.根据权利要求1所述的基于金字塔池化与LDA主题模型的短文本分类方法,其特征在于:步骤S1,所述的构建文本向量,具体是将文本的词语采用向量表示按照顺序进行排序;通过词向量划分,得到n个词语,V(w)={v1,v2,...,vn},其中n表示文本中词语数量,w为按照词语顺序排列的数量
并假设每一个词语向量具有h维,因为按照顺序排列每一个词向量,从而得到大小为(w,h)的词向量矩阵。
3.根据权利要求2所述的基于金字塔池化与LDA主题模型的短文本分类方法,其特征在于:步骤S2,基于步骤S1构建的词向量矩阵,下面采用金字塔池化模型将不同文本的向量固定为统一的向量表示:
对于一个任意大小的词向量矩阵,假设其大小为(w,h);若需要转换成一个固定大小的h1维向量;所述的金字塔池化模型的具体处理如下:
S201:把一...
【专利技术属性】
技术研发人员:陈雍君,
申请(专利权)人:中国电子科技集团公司第七研究所,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。