【技术实现步骤摘要】
一种联合行为
‑
情感
‑
时序的在线论坛主题建模方法
[0001]本专利技术涉及文本数据挖掘
,尤其涉及一种联合行为
‑
情感
‑
时序的在线论坛主题建模方法。
技术介绍
[0002]身处于一个信息爆炸的时代,如何从海量信息中发现和抽取自己真正需要的信息和数据成为一个很大的难题。数据挖掘技术应运而生。相较于复杂的图片和音视频、动画资源,文本挖掘既获取简单,分析和处理便捷,也能准确地表达个人的真实观点和意见。通过对在线论坛中大量的帖子文本进行深入挖掘和分析,能更好地了解和掌握个人的兴趣偏好和行为倾向,对于精准的知识推送服务有着很大的帮助。而借助帖子文本对论坛中个人潜在的情感和行为倾向进行探究已经成为大数据时代研究者们的重点关注问题。
[0003]学者们试图通过构建模型对已有数据进行集成和算法训练,达到对个人乃至某一集体发布的未知帖子文本的情感和行为的推断和评估。但对于情感和行为二者联合后进行分析和评价的相关研究较少,个人在某种情感下实施某种行为的概率有多大,这个概率随时间变化和演化情况如何,这些方面还存在很多不足。也就是说,现有的方法无法获得在线论坛中的深层次的信息。
技术实现思路
[0004]本专利技术提出一种联合行为
‑
情感
‑
时序的在线论坛主题建模方法,用于解决或者至少部分解决现有技术的方法无法获取在线论坛中深层次信息的技术问题。
[0005]为了解决上述技术问题,本专利技术 ...
【技术保护点】
【技术特征摘要】
1.一种联合行为
‑
情感
‑
时序的在线论坛主题建模方法,其特征在于,包括:S1:根据学习者发帖的需要,结合预设情感分类规则,确定帖子中各类情感占比;S2:根据学习者发帖的需要,结合预设行为分类规则,确定帖子中各类行为占比;S3:联合各类情感占比和各类行为占比,获取多类别的情感
‑
行为分类;基于多类别的情感
‑
行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况;S4:基于在不同情感,不同行为下的主题分布情况,联合时间向量,获取不同情感、不同行为、不同主题,在不同时间发帖的概率;S5:基于在不同情感,不同行为下的主题分布情况,联合主题下的词向量,确定不同情感、不同行为、不同主题中的词分布情况;S6:根据各类情感占比、各类行为占比、不同情感、不同行为、不同主题,在不同时间发帖的概率以及不同情感、不同行为、不同主题中的词分布情况,构建联合行为
‑
情感
‑
时序的主题模型。2.如权利要求1所述的联合行为
‑
情感
‑
时序的在线论坛主题建模方法,其特征在于,步骤S1包括:S1.1:构建情感词典,得到预设情感分类规则;S1.2:根据情感词典中的预设情感分类规则计算各类情感占比,计算公式为:S1.2:根据情感词典中的预设情感分类规则计算各类情感占比,计算公式为:S1.2:根据情感词典中的预设情感分类规则计算各类情感占比,计算公式为:其中,表示在情感种类词向量中选择特定情感的概率,即帖子中各类情感占比,表示迪利克雷分布,表示在这篇文档中选择这类情感的概率,表示情感向量;γ是超参数,表示情感词向量的稀疏度,表示情感词向量的稀疏度向量,π表示文档中的情感概率分布;m表示文档数,M表示全部文档数;j表示情感种类,E表示全部情感种类数目;表示第m篇文档中第j种情感所有的词数。3.如权利要求1所述的联合行为
‑
情感
‑
时序的在线论坛主题建模方法,其特征在于,步骤S2包括:S2.1:构建在线教学行为分类规则;S2.2:根据在线教学行为分类规则,计算帖子中各类行为占比,计算公式为:
其中,表示在行为种类词向量中选择特定行为的概率,即帖子中各类行为占比,表示迪利克雷分布,表示在这篇文档中选择这类行为的概率;ψ表示文档中的行为概率分布;表示行为向量;η是超参数,表示行为词向量的稀疏度,表示行为词向量的稀疏度向量,m表示文档数,M表示全部文档数;c表示行为种类,B表示全部行为种类数目;表示第m篇文档中第c种行为所拥有的词数。4.如权利要求1所述的联合行为
‑
情感
‑
时序的在线论坛主题建模方法,其特征在于,步骤S3包括:S3.1:联合各类情感占比和各类行为占比,得到情感
‑
行为矩阵,以获取多类别的情感
‑
行为分类;S3.2:基于多类别的情感
‑
行为分类以及主题向量,确定在不同情感,不同行为下的主题分布情况,计算公式为:题分布情况,计算公式为:题分布情况,计算公式为:题分布情况,...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。