System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于话题表示与多维特征嵌入的群体行为预测方法技术_技高网
当前位置: 首页 > 专利查询>广州大学专利>正文

基于话题表示与多维特征嵌入的群体行为预测方法技术

技术编号:40236965 阅读:7 留言:0更新日期:2024-02-02 22:36
本发明专利技术公开了一种基于话题表示与多维特征嵌入的群体行为预测方法,具体为:S1话题表示:通过N‑gram模型获取话题中文本的词项序列,通过TF‑IDF评估词项序列中词项的重要程度来构建保留词典,将词典与LDA主题模型的主题分析结果进行对比,形成词项序列集,从而有效地表示及区分话题,提升行为预测的准确率。S2特征表示与融合:对用户行为设置权重,根据用户间的联系程度设置衡量因子,最后为用户间的连接边设置综合权重,以此重构话题消息传播网络,再采用Node2vec算法获取节点的嵌入向量表示得到网络结构特征向量。S3、构建群体行为预测模型:基于混合深度神经网络模型,学习和表示词项序列集,将属性和结构两个维度的特征作为嵌入特征,实现用户群体行为的预测。

【技术实现步骤摘要】

本专利技术属于社交网络分析及群体行为预测的,具体涉及一种基于话题表示与多维特征嵌入的群体行为预测方法


技术介绍

1、在过去的几十年里,在线社交网络迅速发展,已成为当今人类互动和信息共享的中心枢纽,相比于传统的媒体,在线社交网络具有实时性、开放性和互动性。通过在线社交网络,用户能够进行大规模实时交流,这些社交媒体平台在日常生活中发挥着越来越重要的作用,对公共生活产生了重大影响。然而,在线社交网络中存在许多未经证实的虚假信息,这些信息一旦产生,就有可能在各种社交平台上迅速且不受控制地传播。此外,在这一过程中,大量用户表现出一种交互式的群体行为,该群体行为表现为倾向于对某一话题进行恶意评论或者转发虚假信息,这些攻击性行为严重影响了社会秩序的稳定。因此,根据在线社交网络中用户之间的信息传播和行为交互,预测信息传播过程中的用户群体行为,对于控制特定情况下的舆论具有重要意义。

2、现有技术在特征挖掘时并未考虑话题这一有价值的信息,具体而言,现有方法集中在对用户属性、文本内容、活动行为等方面进行特征提取;然而,在线社交网络中用户群体往往倾向于一起讨论某一个或某几个话题,并对话题中的信息进行传播。因此,群体行为预测需要引入话题这一因素,对用户参与话题的文本信息进行建模和表示以提升群体行为预测的准确性。此外,近些年研究人员在获取结构这一维度的特征时只考虑用户之间的社交关系,未综合考虑用户的行为类别及其他因素来构建消息传播网络并获取结构特征向量,导致行为预测准确率较低。综上所述,为了有效控制特定情况下的舆论或者虚假信息传播,有必要将话题信息表示以及多维特征纳入群体行为预测方法中,以提高预测准确性。


技术实现思路

1、本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于话题表示与多维特征嵌入的群体行为预测方法,通过对话题文本进行表示得到由区分度高的词项组成的词项序列集,再采用不同的特征提取方法对用户属性特征进行表示,并综合考虑用户行为类别和互动频率来重构话题传播网络获取网络结构特征向量,然后融合用户属性和网络结构两个维度的特征,最后构建一个群体行为预测模型,将属性和结构两个维度的特征作为嵌入特征,学习和表示词项序列集,最终实现预测用户群体的行为。

2、为了达到上述目的,本专利技术采用以下技术方案:

3、基于话题表示与多维特征嵌入的群体行为预测方法,包括下述步骤:

4、s1、话题表示:

5、采用n-gram模型对话题中的文本进行处理,得到词项序列;

6、采用tf-idf来评估词项序列中每个词项的重要程度,过滤词项序列中重要程度较低的词项,并选择重要程度高的词项来构建保留词典;

7、利用lda主题模型对话题文本进行主题分析,将分析结果与词典进行匹配,得到词项序列集;

8、s2、特征表示与融合:

9、采用不同的特征提取方法对用户属性进行特征提取,得到用户属性特征向量;

10、综合考虑用户的行为类别和用户之间的互动频率,设置用户间连接边的权重来重构话题消息传播网络,获取用户节点的出入度值以及节点重要性,并采用node2vec算法获取节点的嵌入向量表示,得到网络结构特征向量;

11、采用特征融合方法将用户属性特征向量和网络结构特征向量进行融合,得到融合特征;

12、s3、构建群体行为预测模型:

13、群体行为预测模型为具有两个输入层的混合深度神经网络模型,其中一个输入层用于输入词项序列集,经过glove嵌入层和两个长短期记忆网络层后输出至特征连接层;另一个输入层用于输入融合特征,输出至特征连接层后经过多个全连接层实现对群体行为的预测。

14、作为优选的技术方案,所述得到词项序列,具体为:

15、基于马尔可夫假设,设话题中一段文本t由原始词项序列(w1,w2,…,wm-1,wm)组成,则该文本t的出现概率等于原始词项序列中每个词项出现概率的乘积,公式为:

16、p(t)=p(w1)*p(w2)*(w3)*…*(wm)

17、=p(w1)*p(w2|w1)*p(w3|w1w2)*…*(wm|w1w2w3…wm-1)

18、使用n-gram模型考虑前n个词项的影响,则文本t出现的概率为:

19、

20、其中,n为滑动窗口的大小;

21、经过n-gram模型处理后得到的词项序列为(w1,w2,…,wn-1,wn)。

22、作为优选的技术方案,所述构建保留词典具体为:

23、设置tf-idf中的阈值参数;

24、计算词项序列中每个词项的词频tf,公式为:

25、

26、其中,tfi,j表示词项i在词项序列j中出现的频率,ni,j为词项i在词项序列j中出现的次数,∑knk,j表示词项序列j中所有词项出现的次数之和;

27、计算词项序列中每个词项的区分能力idf,公式为:

28、

29、其中,idfi为词项i的区分能力,|d|为词项序列中的词项总数,|∑i∈j|表示词项序列j中包含词项i的词项序列数;

30、将词项序列中每个词项的词频及区分能力进行乘积,得到每个词项的tf-idf值,表示为:

31、tf-idf=tf*idf

32、按照从大到小的顺序将各词项的tf-idf值进行排序,选择tf-idf值大于阈值参数的词项来构建保留词典d。

33、作为优选的技术方案,所述得到词项序列集,具体为:

34、利用lda主题模型对话题文本进行主题分析,得到主题词序列,表示为:

35、{w1:p(w1);w2:p(w2);…;wn-1:p(wn-1);wn:p(wn)}

36、其中,wi(1≤i≤n)表示经过主题分析之后得到的第i个词项,n表示词项个数,p(wi)表示该词项的概率;

37、将词典d中的词项与经过lda获取的主题词序列进行对比和匹配,如果词典d与主题词序列具有相同的词项,则含有该词项的主题词序列加入至词项序列集s中。

38、作为优选的技术方案,所述用户属性包括用户id、用户昵称、用户定义位置、性别、个人描述、粉丝数量、关注数量、发文数量、转发数量、注册时间、账户设置信息及url信息;

39、所述用户id、粉丝数量、关注数量、发文数量、转发数量为数值型属性;所述性别及账户设置信息为类别型属性;所述注册时间为时间型属性;所述用户昵称、用户定义位置、个人描述及url信息为文本型属性;

40、采用不同的特征提取方法对用户属性进行特征提取,具体为:

41、对于用户属性中的数值型属性,其中用户id是用户的唯一标识直接使用,其他数值型属性采用特征交叉方法进行特征衍生,得到数值型特征;

42、对于用户属性中的类别型属性,使用类别型特征编码方法进行处理得到类别型特征;

<本文档来自技高网...

【技术保护点】

1.基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列,具体为:

3.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述构建保留词典具体为:

4.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列集,具体为:

5.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户属性包括用户ID、用户昵称、用户定义位置、性别、个人描述、粉丝数量、关注数量、发文数量、转发数量、注册时间、账户设置信息及URL信息;

6.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户的行为类别包括转发行为、评论行为和引用行为;所述重构话题消息传播网络,具体为:

7.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到网络结构特征向量,具体为:</p>

8.根据权利要求7所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述采用Node2vec算法对话题消息传播网络提取结构特征,获取用户节点的嵌入向量表示a2,具体为:

9.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述混合深度神经网络模型包括两个输入层、Glove嵌入层、两个长短期记忆网络层、特征连接层、两个Dropout层、两个全连接层及输出层;

10.根据权利要求9所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述群体行为预测模型对用户群体行为进行预测的步骤包括:

...

【技术特征摘要】

1.基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,包括下述步骤:

2.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列,具体为:

3.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述构建保留词典具体为:

4.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列集,具体为:

5.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户属性包括用户id、用户昵称、用户定义位置、性别、个人描述、粉丝数量、关注数量、发文数量、转发数量、注册时间、账户设置信息及url信息;

6.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户的...

【专利技术属性】
技术研发人员:李树栋黄小慧吴晓波韩伟红黄兹勤陈昭阳李雪斌杨鹏伟唐可可张登辉
申请(专利权)人:广州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1