【技术实现步骤摘要】
面向内容的群体观点预测方法及系统
[0001]本专利技术涉及群体观点预测的描述方法,特别是涉及一种针对文本的群体观点预测方法及系统。
技术介绍
[0002]随着互联网的发展,社交网络逐渐积攒了大量的用户,庞大的用户群体能够自由地、充分地分享和交流自己的见解。社交网络平台不仅为个人与个人提供了便捷的交互方式,也从群体角度供一部分有相似爱好、相似背景的人进行充分交流。在一些特定的兴趣爱好社区中,兴趣活动发起人往往会在一个群组里以一定方式发起活动,该活动是否能够被举办取决于整个群体的观点。因此,群体观点预测对社区管理平台显得尤为重要。
[0003]群体观点预测可以视为基于文本的立场检测或群体推荐的扩展任务,但是又与这两种技术存在差异。基于文本的立场检测任务是从文本的角度出发,根据单个或多个目标考虑其对该文本的立场。群体推荐则是向一个群体推荐不同的物品。一方面,基于文本的立场检测需要将立场明确区分开,即分为正向、负向等立场。群体观点与立场检测差异在于,其需要预测群体观点,而群体中的目标只持有一种正向观点,这也说明群体的形成存在目的性。另一方面,群体推荐的研究重点在于如何挖掘群体中成员的共性偏好特征,需要平衡群体中各个成员的差异性,以缓解成员间的偏好冲突。
[0004]基于文本的立场检测可以分为单目标文本立场检测和多目标文本立场检测。基于单目标的立场检测的任务是给定单一目标和文本内容,需要确定给定目标对当前文本的态度和观点,即寻找文本与目标立场的映射关系。早期工作主要使用基于规则和机器学习的研究路线进行研究。S ...
【技术保护点】
【技术特征摘要】
1.一种面向内容的群体观点预测方法,包括以下步骤:(1)文本特征提取对活动文本进行预处理,并利用BERT对活动文本进行预训练,按照活动文本不同的领域进行分类训练,得到活动文本特征表示(2)用户初始化表示构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化,再将相应遗忘曲线值和步骤(1)中得到的活动文本特征表示相乘并求和,得到用户特征表示u
self
′
;再减去平均池化后的反对的本文u
nay
得到用户初始化表示u
self
;(3)用户自驱性表示利用用户间的关系建立用户间的拓扑关系图G1,再利用两层卷积神经网络得到用户的自驱性表示u
effected
,其中卷积神经网络用户的初始特征为步骤(2)得到的的用户初始化表示u
self
;(4)用户领域性表示根据每位用户不同的领域,采用GMM算法对用户的领域进行重叠聚类,并构建领域图G2,再利用GAT对特征进行融合,最终得到用户所在领域的特征,即用户领域性表示u
group
;(5)群体特征融合根据步骤(2)、步骤(3)和步骤(4)的输出,利用注意力机制进行加权求和得到群组中的用户表征S,再利用LSTM和注意力机制得到群组特征(6)群体观点预测将步骤(1)中得到的活动文本特征表示和步骤(5)得到的群组特征进行拼接,再将其输入由多层感知机构成的分类器中进行分类,最终得到预测结果。2.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,还包括系统功能展示的步骤,即将步骤(6)得到的结果,在web网页端进行可视化的展示分析,并给出该方法相较于其他方法的准确性。3.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,步骤(1)中所述的活动文本包括活动的文本标题,以及对该项活动的简要文字性描述,并且要求字数不超过160字;步骤(1)中所述利用BERT对活动文本进行编码,一项活动文本的特征表示,即活动文本特征表示,其维度为1*768,设定BERT处理的句子长度为160;在对活动文本预训练过程中,分别采用BERT最后四层的特征拼接、最后四层特征最大池化、最后一层的特征以及最后一层输出加上LSTM四种方法进行训练;当对群组所支持的活动文本进行表征时,对于被拆分的单词使用平均池化作为其编码表示,如公式1所示其中,在BERT词表中单词中的输出,n
w
代表在BERT此表中有对应输出的单词个数,表示不在词表中的表示。
4.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,步骤(2)具体步骤为:构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化,如公式2所示其中f(t)表示活动随时间变化的重要程度,k0,c,t0都是常数,t代表时间,对于活动发起者提出的活动,将活动文本特征表示按照时间排序,并和上述设计的遗忘函数相乘并求和,得到用户特征表示u
self
′
;此外,由于反对的文本和用户观点相违背,采用了平均池化得到反对的文本u
nay
,并从u
self
′
中减去u
nay
,得到用户的初始化表示u
self
。5.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,步骤(3)具体包括:首先,需要根据发起人和联合发起人的关系建立用户间的拓扑关系,得到用户间的拓扑关系图G1,根据G1,得到影响力的传播路径,在步骤(2)中,我们获得了用户初始化表示u
self
,即存在初始特征图卷积计算的初始表示是用户初始化表示的输出,如公式3所示,自驱性表示如公式4,其中表示经过l1+1次卷积运算后的输出,取最后一层网络输出u
effected
为用户自驱性表示,σ(
·
)表示激活函数,其中A为拓扑关系G1的邻接矩阵,I是单位矩阵,为的度矩阵,为模型需要学习的参数。6.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于步骤(4)中的计算用户的领域性表示,具体方法为:采用高斯混合模型(GaussianMixtureMode,GMM)对用户领域进行聚类,GMM可以将一个用户分到多个领域中,具体算法如公式5所示,其中p(x)代表高斯混合模型的分布,k
cluster
代表类别数,代表观测数据属于第i
cluster
个类别的混合系数,为服从高斯分布的随机向量x的概率密度函数,其中代表数据的均值向量,GMM聚类算法优化式无法直接通过解析方式求得解,常采用EM(Expectation Maximization Algorithm)算法进行迭代优化求解,其中,表示GMM优化目标,N代表网络中的用户数量;通过上述的聚类过程,将用户划分到不同的兴趣领域中,但是领域性的影响力尚未在不同的领域间传播,对此,将划分出的领域抽象为图中的节点,构建以领域为节点的图G2。,具体的构建过程如下:对于处于多个领域中的用户,将其视为中枢节点,连接两个或多个领
域,用户的自驱性表示在GMM算法的作用下,会聚成不同的领域,然后将领域抽象为图中的节点,并通过将跨越多领域的用户作为锚点,连接两个或多个G2中的节点;在使用图注意网络之前,需要将网点节点的参数进行初始化,对于构建的图G2中各个节点的初始化方式为:使用注意力机制融合一个兴趣领域内的用户特征作为当前领域的表示如公式7所示,其中表示在当前领域中的用户,Attention(<...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。