当前位置: 首页 > 专利查询>东南大学专利>正文

面向内容的群体观点预测方法及系统技术方案

技术编号:36263292 阅读:18 留言:0更新日期:2023-01-07 10:02
本发明专利技术公开了一种面向内容的群体观点预测方法及系统,本发明专利技术的方法步骤如下:首先利用BERT模型预训练活动描述文本特征,得到用户初始表示;再基于用户合作关系构建合作网络,提取用户的自驱性表示;之后根据用户本身的兴趣爱好标签领域,对用户领域聚类,得到用户领域性特征表示;融合个体层面的用户初始化表示、自驱性表示和领域性表示得到群组特征;最后通过群体观点预测模型预测群组对目标活动的态度。系统采用web交互技术实现描述生成结果的可视化展示。本发明专利技术可以有效预测兴趣活动社区里群组对活动是否举办的态度,为平台管理和相关活动推荐提供了有效技术支持。和相关活动推荐提供了有效技术支持。和相关活动推荐提供了有效技术支持。

【技术实现步骤摘要】
面向内容的群体观点预测方法及系统


[0001]本专利技术涉及群体观点预测的描述方法,特别是涉及一种针对文本的群体观点预测方法及系统。

技术介绍

[0002]随着互联网的发展,社交网络逐渐积攒了大量的用户,庞大的用户群体能够自由地、充分地分享和交流自己的见解。社交网络平台不仅为个人与个人提供了便捷的交互方式,也从群体角度供一部分有相似爱好、相似背景的人进行充分交流。在一些特定的兴趣爱好社区中,兴趣活动发起人往往会在一个群组里以一定方式发起活动,该活动是否能够被举办取决于整个群体的观点。因此,群体观点预测对社区管理平台显得尤为重要。
[0003]群体观点预测可以视为基于文本的立场检测或群体推荐的扩展任务,但是又与这两种技术存在差异。基于文本的立场检测任务是从文本的角度出发,根据单个或多个目标考虑其对该文本的立场。群体推荐则是向一个群体推荐不同的物品。一方面,基于文本的立场检测需要将立场明确区分开,即分为正向、负向等立场。群体观点与立场检测差异在于,其需要预测群体观点,而群体中的目标只持有一种正向观点,这也说明群体的形成存在目的性。另一方面,群体推荐的研究重点在于如何挖掘群体中成员的共性偏好特征,需要平衡群体中各个成员的差异性,以缓解成员间的偏好冲突。
[0004]基于文本的立场检测可以分为单目标文本立场检测和多目标文本立场检测。基于单目标的立场检测的任务是给定单一目标和文本内容,需要确定给定目标对当前文本的态度和观点,即寻找文本与目标立场的映射关系。早期工作主要使用基于规则和机器学习的研究路线进行研究。SVM在使用以特征工程的研究中占据主流地位。随着深度学习的发展,在立场检测领域中越来越多的工作采用深度学习的方式进行研究。Isablelle等人使用RNN对目标和文本进行编码,使用目标编码模块的输出层作为文本编码模块的初始值,即文本编码模块需要等待目标编码模块的输出。Vijayaraghavan等人使用卷积神经网络对两个级别的数据进行特征训练,分别是单词级别和字符级别,通过融合这两种级别的特征,进行立场检测和分析。多目标立场检测与单目标立场检测定义相比,研究对象从单个目标变为了多个目标,即给定n个目标和文本内容,需要判断多个目标对文本的立场倾向。此外,多目标立场检测中涉及到立场的传播与对立,即目标间角色存在差异会导致立场不同。Sobhani认为在基于单目标的立场检测任务中,将每个个体都平等的对待,忽略了个体间可能存在的影响力和利益对立,提出了多目标的立场检测任务,并发布了一个用于多目标立场检测的数据集。同时,作者提出了一个基于注意力机制的多目标立场检测方法,该方法利用注意力机制的优势,从而在判断每个目标的立场时,可以更合理地调整文本信息的权重。Wei等人提出了一种动态记忆增强网络,该网络在文本编码模块使用了两个双向长短期记忆神经网络,并使用了注意力机制融合特征,再利用共享动态记忆单元提取多目标与立场的关联信息。Siddiqua等人提出了基于神经网络的集成模型,该模型将目标向量和文本向量进行拼接得到输入特征,随后使用多个卷积核对输入特征卷机,传入密集连接的双向长短期记忆
两种观点,群体观点的量化体现在模型会选择当前群体中拥有数量最多的观点作为群体的观点。Sznazjd模型由sznazjd提出,Sznajd模型认为总是由一对个体组合产生作用,个体的观点受到其两跳内邻居的影响,其信息具有显著的“外流性”,因而更多地被用来模拟观点在社会中的传播行为。

技术实现思路

[0007]专利技术目的:为了解决现有技术的不足,本专利技术提供一种面向内容的群体观点预测方法及系统。
[0008]技术方案:为实现上述专利技术目的,本专利技术采用以下技术方案:
[0009]本专利技术的一种面向内容的群体观点预测方法,包括以下步骤:
[0010](1)文本特征提取
[0011]对活动文本进行预处理,并利用BERT对活动文本进行预训练,按照活动文本不同的领域进行分类训练,得到活动文本特征表示
[0012](2)用户初始化表示
[0013]构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化,再将相应遗忘曲线值和步骤(1)中得到的活动文本特征表示相乘并求和,得到用户特征表示u
self

;再减去平均池化后的反对的本文u
nay
得到用户初始化表示u
self

[0014](3)用户自驱性表示
[0015]利用用户间的关系建立用户间的拓扑关系图G1,再利用两层卷积神经网络得到用户自驱性表示u
effected
,其中卷积神经网络用户的初始特征为步骤(2)得到的的用户初始化表示u
self

[0016](4)用户领域性表示
[0017]根据每位用户不同的领域,采用GMM算法对用户的领域进行重叠聚类,并构建领域图G2,再利用GAT对特征进行融合,最终得到用户所在领域的特征,即用户领域性表示u
group

[0018](5)群体特征融合
[0019]根据步骤(2)、步骤(3)和步骤(4)的输出,利用注意力机制进行加权求和得到群组中的用户表征S,再利用LSTM和注意力机制得到群组特征
[0020](6)群体观点预测
[0021]将步骤(1)中得到的活动文本特征表示和步骤(5)得到的群组特征进行拼接,再将其输入由多层感知机构成的分类器中进行分类,最终得到预测结果。
[0022]进一步地,本专利技术的方法还包括系统功能展示的步骤,即将步骤(6)得到的结果,在web网页端进行可视化的展示分析,并给出该方法相较于其他方法的准确性。
[0023]进一步地,步骤(1)中所述的活动文本包括活动的文本标题,以及对该项活动的简要文字性描述,并且要求字数不超过160字;
[0024]步骤(1)中所述利用BERT对活动文本进行编码,一项活动文本的特征表示,即活动文本特征表示,其维度为1*768,设定BERT处理的句子长度为160;在对活动文本预训练过程中,分别采用BERT最后四层的特征拼接、最后四层特征最大池化、最后一层的特征以及最后一层输出加上LSTM四种方法进行训练;
[0025]当对群组所支持的活动文本进行表征时,对于被拆分的单词使用平均池化作为其编码表示,如公式1所示
[0026][0027]其中,在BERT词表中单词中的输出,n
w
代表在BERT此表中有对应输出的单词个数,表示不在词表中的表示。
[0028]进一步地,步骤(2)具体步骤为:
[0029]构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化,如公式2所示
[0030][0031]其中f(t)表示活动随时间变化的重要程度,k0,c,t0都是常数,t代表时间,对于活动发起者提出的活动,将活动文本特征表示按照时间排序,并和上述设计的遗忘函数相乘并求和,得到用户特征表示u
self

;此外,由于反本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向内容的群体观点预测方法,包括以下步骤:(1)文本特征提取对活动文本进行预处理,并利用BERT对活动文本进行预训练,按照活动文本不同的领域进行分类训练,得到活动文本特征表示(2)用户初始化表示构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化,再将相应遗忘曲线值和步骤(1)中得到的活动文本特征表示相乘并求和,得到用户特征表示u
self

;再减去平均池化后的反对的本文u
nay
得到用户初始化表示u
self
;(3)用户自驱性表示利用用户间的关系建立用户间的拓扑关系图G1,再利用两层卷积神经网络得到用户的自驱性表示u
effected
,其中卷积神经网络用户的初始特征为步骤(2)得到的的用户初始化表示u
self
;(4)用户领域性表示根据每位用户不同的领域,采用GMM算法对用户的领域进行重叠聚类,并构建领域图G2,再利用GAT对特征进行融合,最终得到用户所在领域的特征,即用户领域性表示u
group
;(5)群体特征融合根据步骤(2)、步骤(3)和步骤(4)的输出,利用注意力机制进行加权求和得到群组中的用户表征S,再利用LSTM和注意力机制得到群组特征(6)群体观点预测将步骤(1)中得到的活动文本特征表示和步骤(5)得到的群组特征进行拼接,再将其输入由多层感知机构成的分类器中进行分类,最终得到预测结果。2.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,还包括系统功能展示的步骤,即将步骤(6)得到的结果,在web网页端进行可视化的展示分析,并给出该方法相较于其他方法的准确性。3.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,步骤(1)中所述的活动文本包括活动的文本标题,以及对该项活动的简要文字性描述,并且要求字数不超过160字;步骤(1)中所述利用BERT对活动文本进行编码,一项活动文本的特征表示,即活动文本特征表示,其维度为1*768,设定BERT处理的句子长度为160;在对活动文本预训练过程中,分别采用BERT最后四层的特征拼接、最后四层特征最大池化、最后一层的特征以及最后一层输出加上LSTM四种方法进行训练;当对群组所支持的活动文本进行表征时,对于被拆分的单词使用平均池化作为其编码表示,如公式1所示其中,在BERT词表中单词中的输出,n
w
代表在BERT此表中有对应输出的单词个数,表示不在词表中的表示。
4.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,步骤(2)具体步骤为:构建遗忘曲线f(t)表示活动文本随时间变化重要程度的变化,如公式2所示其中f(t)表示活动随时间变化的重要程度,k0,c,t0都是常数,t代表时间,对于活动发起者提出的活动,将活动文本特征表示按照时间排序,并和上述设计的遗忘函数相乘并求和,得到用户特征表示u
self

;此外,由于反对的文本和用户观点相违背,采用了平均池化得到反对的文本u
nay
,并从u
self

中减去u
nay
,得到用户的初始化表示u
self
。5.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于,步骤(3)具体包括:首先,需要根据发起人和联合发起人的关系建立用户间的拓扑关系,得到用户间的拓扑关系图G1,根据G1,得到影响力的传播路径,在步骤(2)中,我们获得了用户初始化表示u
self
,即存在初始特征图卷积计算的初始表示是用户初始化表示的输出,如公式3所示,自驱性表示如公式4,其中表示经过l1+1次卷积运算后的输出,取最后一层网络输出u
effected
为用户自驱性表示,σ(
·
)表示激活函数,其中A为拓扑关系G1的邻接矩阵,I是单位矩阵,为的度矩阵,为模型需要学习的参数。6.根据权利要求1所述的面相内容的群体观点预测方法,其特征在于步骤(4)中的计算用户的领域性表示,具体方法为:采用高斯混合模型(GaussianMixtureMode,GMM)对用户领域进行聚类,GMM可以将一个用户分到多个领域中,具体算法如公式5所示,其中p(x)代表高斯混合模型的分布,k
cluster
代表类别数,代表观测数据属于第i
cluster
个类别的混合系数,为服从高斯分布的随机向量x的概率密度函数,其中代表数据的均值向量,GMM聚类算法优化式无法直接通过解析方式求得解,常采用EM(Expectation Maximization Algorithm)算法进行迭代优化求解,其中,表示GMM优化目标,N代表网络中的用户数量;通过上述的聚类过程,将用户划分到不同的兴趣领域中,但是领域性的影响力尚未在不同的领域间传播,对此,将划分出的领域抽象为图中的节点,构建以领域为节点的图G2。,具体的构建过程如下:对于处于多个领域中的用户,将其视为中枢节点,连接两个或多个领
域,用户的自驱性表示在GMM算法的作用下,会聚成不同的领域,然后将领域抽象为图中的节点,并通过将跨越多领域的用户作为锚点,连接两个或多个G2中的节点;在使用图注意网络之前,需要将网点节点的参数进行初始化,对于构建的图G2中各个节点的初始化方式为:使用注意力机制融合一个兴趣领域内的用户特征作为当前领域的表示如公式7所示,其中表示在当前领域中的用户,Attention(<...

【专利技术属性】
技术研发人员:刘波薛潇雨韩旺曹玖新
申请(专利权)人:东南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1