一种基于社交平台元数据的文本主题建模方法及系统技术方案

技术编号:35739117 阅读:33 留言:0更新日期:2022-11-26 18:42
本发明专利技术提出一种基于社交平台元数据的文本主题建模方法和系统,包括基于文本数据的关键词,构建文本数据的词袋表示;基于文本数据的元数据类别,训练对应类别的属性值预测任务,以微调预训练语义提取模型,得到目标语义提取模型,使用目标语义提取模型提取文本数据的文本语义表示;基于文本语义表示构造语义约束目标,以语义约束目标为指导,以词袋表示作为输入和重构目标,训练基于变分自编码器的神经主题模型,得到主题提取模型,并从模型中导出主题

【技术实现步骤摘要】
一种基于社交平台元数据的文本主题建模方法及系统


[0001]本专利技术适用于移动应用大数据分析领域,涉及面向移动应用元数据的主题建模方法及系统,特别涉及面向社交应用平台元数据的主题分类方法及系统。

技术介绍

[0002]主题建模任务旨在对语料集进行概率建模,发现一组潜在的主题,得到的主题可以用于用户画像、舆情分析与追踪以及人机对话等领域。每个主题可用于描述一个可解释的语义概念,对应于词表上的一个概率分布。同时,给定一篇文档,主题模型能够推断出其主题分布。主题建模作为一种强大的无监督文本分析技术,能够提取出海量文本中讨论的主题,并按照主题分布对文本进行聚类或分类。
[0003]Latent DirichletAllocation(LDA)潜在狄利克雷分配于2003年提出的贝叶斯概率主题模型,通过建模文档的生成过程来推测文档的主题分布。如图5所示,在LDA主题模型里,有M个文档

主题的Dirichlet先验分布,对应于M个文档

主题的多项后验分布,这样α

θr/>d
→本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于社交平台元数据的文本主题建模方法,其特征在于,包括:步骤1、从社交平台获取待主题建模的文本数据及该文本数据的元数据;步骤2、基于该文本数据的关键词,构建该文本数据的词袋表示;步骤3、基于该元数据的类别,训练对应类别的属性值预测任务,以微调预训练语义提取模型,得到目标语义提取模型,使用该目标语义提取模型提取该文本数据的文本语义表示;步骤4、基于该文本语义表示构造语义约束目标,以该语义约束目标为指导,以词袋表示作为输入和重构目标,训练基于变分自编码器的神经主题模型,得到主题提取模型,并从模型中导出主题

关键词分布和主题嵌入表示;步骤5、将该主题嵌入表示输入该属性值预测任务,得到主题在对应属性上的属性值分布,根据该属性值分布、该主题

关键词分布和该主题嵌入表示对相同的主题进行合并,并将合并结果作为该文本数据的主题模型。2.如权利要求1所述的基于社交平台元数据的文本主题建模方法,其特征在于,该步骤3包括:将元数据的属性分类为离散型属性、连续型属性和文本型属性;对离散型属性,分别基于语料集中出现过的属性值计数,按照构造词表的过程,取出现次数超过预设阈值的属性值构成属性值集合,基于该属性值集合构建一个预测属性值的分类任务,采用交叉熵作为分类任务的损失函数;对连续型属性,将其属性值转换为均值为0,方差为1的分布;基于该连续型属性构建一个预测转换后属性值的回归任务,采用MSE作为该回归任务的损失函数;对文本型属性,将该文本数据与其拼接,得到拼接文本,输入该预训练语义提取模型,产生的文本语义向量;构建对抗分类任务,用于判定该文本语义向量的属性类别,采用交叉熵作为损失函数。3.如权利要求1所述的基于社交平台元数据的文本主题建模方法,其特征在于,该步骤5包括:根据该属性值分布,构建主题各属性的属性值列表;根据该主题

关键词分布,构建关键词列表;在对主题进行合并时,使用杰卡德系数分布度量主题的关键词列表间和属性值列表间的相似度,得到第一相似度和第二相似度,使用余弦相似度来度量主题的嵌入表示之间的相似度,得到第三相似度;加权平均第一相似度、第二相似度和第三相似度,得到主题间的最终相似度,将该最终相似度大于预设值的主题进行合并。4.如权利要求1所述的基于社交平台元数据的文本主题建模方法,其特征在于,该元数据包括:发布时间、发布用户ID、发布用户个人简介、@User、#Tag和URL。5.一种基于社交平台元数据的文本主题建模系统,其特征在于,包括:初始模块,用于从社交平台获取待主题建模的文本数据及该文本...

【专利技术属性】
技术研发人员:高金华赵鑫沈华伟王永庆庞亮孟剑程学旗
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1