System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于社交网络分析及群体行为预测的,具体涉及一种基于话题表示与多维特征嵌入的群体行为预测方法。
技术介绍
1、在过去的几十年里,在线社交网络迅速发展,已成为当今人类互动和信息共享的中心枢纽,相比于传统的媒体,在线社交网络具有实时性、开放性和互动性。通过在线社交网络,用户能够进行大规模实时交流,这些社交媒体平台在日常生活中发挥着越来越重要的作用,对公共生活产生了重大影响。然而,在线社交网络中存在许多未经证实的虚假信息,这些信息一旦产生,就有可能在各种社交平台上迅速且不受控制地传播。此外,在这一过程中,大量用户表现出一种交互式的群体行为,该群体行为表现为倾向于对某一话题进行恶意评论或者转发虚假信息,这些攻击性行为严重影响了社会秩序的稳定。因此,根据在线社交网络中用户之间的信息传播和行为交互,预测信息传播过程中的用户群体行为,对于控制特定情况下的舆论具有重要意义。
2、现有技术在特征挖掘时并未考虑话题这一有价值的信息,具体而言,现有方法集中在对用户属性、文本内容、活动行为等方面进行特征提取;然而,在线社交网络中用户群体往往倾向于一起讨论某一个或某几个话题,并对话题中的信息进行传播。因此,群体行为预测需要引入话题这一因素,对用户参与话题的文本信息进行建模和表示以提升群体行为预测的准确性。此外,近些年研究人员在获取结构这一维度的特征时只考虑用户之间的社交关系,未综合考虑用户的行为类别及其他因素来构建消息传播网络并获取结构特征向量,导致行为预测准确率较低。综上所述,为了有效控制特定情况下的舆论或者虚假信息传播,有必要将话
技术实现思路
1、本专利技术的主要目的在于克服现有技术的缺点与不足,提供一种基于话题表示与多维特征嵌入的群体行为预测方法,通过对话题文本进行表示得到由区分度高的词项组成的词项序列集,再采用不同的特征提取方法对用户属性特征进行表示,并综合考虑用户行为类别和互动频率来重构话题传播网络获取网络结构特征向量,然后融合用户属性和网络结构两个维度的特征,最后构建一个群体行为预测模型,将属性和结构两个维度的特征作为嵌入特征,学习和表示词项序列集,最终实现预测用户群体的行为。
2、为了达到上述目的,本专利技术采用以下技术方案:
3、基于话题表示与多维特征嵌入的群体行为预测方法,包括下述步骤:
4、s1、话题表示:
5、采用n-gram模型对话题中的文本进行处理,得到词项序列;
6、采用tf-idf来评估词项序列中每个词项的重要程度,过滤词项序列中重要程度较低的词项,并选择重要程度高的词项来构建保留词典;
7、利用lda主题模型对话题文本进行主题分析,将分析结果与词典进行匹配,得到词项序列集;
8、s2、特征表示与融合:
9、采用不同的特征提取方法对用户属性进行特征提取,得到用户属性特征向量;
10、综合考虑用户的行为类别和用户之间的互动频率,设置用户间连接边的权重来重构话题消息传播网络,获取用户节点的出入度值以及节点重要性,并采用node2vec算法获取节点的嵌入向量表示,得到网络结构特征向量;
11、采用特征融合方法将用户属性特征向量和网络结构特征向量进行融合,得到融合特征;
12、s3、构建群体行为预测模型:
13、群体行为预测模型为具有两个输入层的混合深度神经网络模型,其中一个输入层用于输入词项序列集,经过glove嵌入层和两个长短期记忆网络层后输出至特征连接层;另一个输入层用于输入融合特征,输出至特征连接层后经过多个全连接层实现对群体行为的预测。
14、作为优选的技术方案,所述得到词项序列,具体为:
15、基于马尔可夫假设,设话题中一段文本t由原始词项序列(w1,w2,…,wm-1,wm)组成,则该文本t的出现概率等于原始词项序列中每个词项出现概率的乘积,公式为:
16、p(t)=p(w1)*p(w2)*(w3)*…*(wm)
17、=p(w1)*p(w2|w1)*p(w3|w1w2)*…*(wm|w1w2w3…wm-1)
18、使用n-gram模型考虑前n个词项的影响,则文本t出现的概率为:
19、
20、其中,n为滑动窗口的大小;
21、经过n-gram模型处理后得到的词项序列为(w1,w2,…,wn-1,wn)。
22、作为优选的技术方案,所述构建保留词典具体为:
23、设置tf-idf中的阈值参数;
24、计算词项序列中每个词项的词频tf,公式为:
25、
26、其中,tfi,j表示词项i在词项序列j中出现的频率,ni,j为词项i在词项序列j中出现的次数,∑knk,j表示词项序列j中所有词项出现的次数之和;
27、计算词项序列中每个词项的区分能力idf,公式为:
28、
29、其中,idfi为词项i的区分能力,|d|为词项序列中的词项总数,|∑i∈j|表示词项序列j中包含词项i的词项序列数;
30、将词项序列中每个词项的词频及区分能力进行乘积,得到每个词项的tf-idf值,表示为:
31、tf-idf=tf*idf
32、按照从大到小的顺序将各词项的tf-idf值进行排序,选择tf-idf值大于阈值参数的词项来构建保留词典d。
33、作为优选的技术方案,所述得到词项序列集,具体为:
34、利用lda主题模型对话题文本进行主题分析,得到主题词序列,表示为:
35、{w1:p(w1);w2:p(w2);…;wn-1:p(wn-1);wn:p(wn)}
36、其中,wi(1≤i≤n)表示经过主题分析之后得到的第i个词项,n表示词项个数,p(wi)表示该词项的概率;
37、将词典d中的词项与经过lda获取的主题词序列进行对比和匹配,如果词典d与主题词序列具有相同的词项,则含有该词项的主题词序列加入至词项序列集s中。
38、作为优选的技术方案,所述用户属性包括用户id、用户昵称、用户定义位置、性别、个人描述、粉丝数量、关注数量、发文数量、转发数量、注册时间、账户设置信息及url信息;
39、所述用户id、粉丝数量、关注数量、发文数量、转发数量为数值型属性;所述性别及账户设置信息为类别型属性;所述注册时间为时间型属性;所述用户昵称、用户定义位置、个人描述及url信息为文本型属性;
40、采用不同的特征提取方法对用户属性进行特征提取,具体为:
41、对于用户属性中的数值型属性,其中用户id是用户的唯一标识直接使用,其他数值型属性采用特征交叉方法进行特征衍生,得到数值型特征;
42、对于用户属性中的类别型属性,使用类别型特征编码方法进行处理得到类别型特征;
<本文档来自技高网...【技术保护点】
1.基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列,具体为:
3.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述构建保留词典具体为:
4.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列集,具体为:
5.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户属性包括用户ID、用户昵称、用户定义位置、性别、个人描述、粉丝数量、关注数量、发文数量、转发数量、注册时间、账户设置信息及URL信息;
6.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户的行为类别包括转发行为、评论行为和引用行为;所述重构话题消息传播网络,具体为:
7.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到网络结构特征向量,具体为:<
...【技术特征摘要】
1.基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,包括下述步骤:
2.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列,具体为:
3.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述构建保留词典具体为:
4.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述得到词项序列集,具体为:
5.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户属性包括用户id、用户昵称、用户定义位置、性别、个人描述、粉丝数量、关注数量、发文数量、转发数量、注册时间、账户设置信息及url信息;
6.根据权利要求1所述的基于话题表示与多维特征嵌入的群体行为预测方法,其特征在于,所述用户的...
【专利技术属性】
技术研发人员:李树栋,黄小慧,吴晓波,韩伟红,黄兹勤,陈昭阳,李雪斌,杨鹏伟,唐可可,张登辉,
申请(专利权)人:广州大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。