面向聊天群组的关键人物提取方法及装置制造方法及图纸

技术编号:37879419 阅读:30 留言:0更新日期:2023-06-15 21:07
本发明专利技术提供一种面向聊天群组的关键人物提取方法及装置,包括:获取聊天群组中的消息信息,采用滑动时间窗口算法为消息构建全连接消息图,采用结构感知图神经网络计算消息边的向量值,并通过多层感知器层计算第一权值,构建消息关系图;基于消息关系图确定发送消息的用户,并计算用户边第二权值,构建用户关系图;基于各用户的发言数和各用户边的第二权值设置预设PageRank算法的分数分配权重,对用户关系图采用预设PageRank算法进行迭代,直至收敛,得到各用户的影响力分数;按照影响力分数对各用户进行排序,以提取该聊天群组中的关键人物。本发明专利技术构建了有向的用户关系图,并对PageRank算法进行改进,实现了针对聊天群组的关键人物提取。关键人物提取。关键人物提取。

【技术实现步骤摘要】
面向聊天群组的关键人物提取方法及装置


[0001]本专利技术涉及互联网
,尤其涉及一种面向聊天群组的关键人物提取方法及装置。

技术介绍

[0002]随着移动互联网技术的不断发展,通讯软件中的聊天群组已经成为日常生活和工作中不可缺少的通讯工具。尽管聊天群组的传播范围和影响力远不及微博等社交网络,但聊天群组有其自己的特点,在诸多领域都有重要的影响和应用,比如企业营销、网络信息传播、舆情引导等等。
[0003]群组关键人物是聊天群组中的活跃分子,是群组中的积极的发言者和信息传播者,对群组其他成员有较大影响力,对群组中的聊天内容具有引导作用,因此,对聊天群组中的关键人物进行研究具有重要的意义。在社交网络分析研究中,用户通常包含丰富的用户属性,且可以有关注、点赞、评论、转发等行为,用户之间可以建立关系,形成社交网络。因此大部分针对社交网络关键人物的研究方法都基于网络结构。但聊天群组中的用户没有直接的显式的关系,且相比社交网络,群组用户的用户属性比较少,使得现有的社交网络关键人物研究方法不能直接应用在聊天群组的关键人物提取中。
[0004]现有的针对聊天群组的关键人物提取方法只能采用简单统计的方法实现,但由于考虑的因素单一,作为提取关键人物的方法考虑并不够全面。

技术实现思路

[0005]鉴于此,本专利技术实施例提供了一种面向聊天群组的关键人物提取方法及装置,以消除或改善现有技术中存在的一个或更多个缺陷,解决现有社交网络关键人物研究方法无法适用于聊天群组的问题。
[0006]一方面,本专利技术提供了一种面向聊天群组的关键人物提取方法,其特征在于,该方法包括以下步骤:
[0007]获取聊天群组中预设数量条消息信息,所述消息信息包括消息内容、消息发送时间、消息编号以及发送消息的用户;
[0008]基于所述消息信息构建消息序列数组和消息发送时间数组,采用滑动时间窗口算法,将预设时间窗口内的消息作为消息节点进行全连接,生成全连接消息图;
[0009]将所述全连接消息图输入预训练得到的结构感知图神经网络,计算各消息节点之间消息边的向量值,将各消息边的向量值输入预设的多层感知器层,生成各消息边的第一权值,根据所述第一权值判断对应消息节点之间是否存在关系,所述关系至少包括回复关系和补充关系,保留存在关系的消息边,去除不存在关系的消息边,构建消息关系图;
[0010]根据所述消息关系图和所述消息信息,确定每条消息对应的用户,将得到的各用户作为用户节点,从所述消息关系图中获取各用户之间的消息边,并累加消息边的第一权值作为相应用户节点之间用户边的第二权值,构建用户关系图;
[0011]根据所述消息信息统计各用户的发言数,基于各用户的发言数和各用户边的第二权值计算各用户之间的回复概率值,根据所述回复概率值设置预设PageRank算法的分数分配权重;对所述用户关系图采用预设PageRank算法进行迭代,直至收敛,得到各用户节点稳定的PageRank值,并将所述PageRank值作为各用户的影响力分数;
[0012]按照所述影响力分数对各用户进行排序,根据预设规则提取相应的用户,以得到该聊天群组中的关键人物。
[0013]在本专利技术的一些实施例中,采用滑动时间窗口算法,将预设时间窗口内的消息作为消息节点进行全连接,生成全连接消息图,还包括:
[0014]设置所述时间窗口大小,采用所述时间窗口循环遍历所有消息,并循环遍历所述时间窗口内的消息,将属于预设时间段内的两条消息之间连边,以生成全连接消息图。
[0015]在本专利技术的一些实施例中,将所述全连接消息图输入预训练得到的结构感知图神经网络,所述结构感知图神经网络的训练方法包括以下步骤:
[0016]获取训练样本集,所述训练样本集包含多个样本,每个样本包括预设数量条消息信息;根据各消息之间是否存在关系,为各消息添加相应的标注;所述关系至少包括回复关系和补充关系;
[0017]获取初始结构感知图神经网络,将带有标注的各样本输入所述初始结构感知图神经网络,学习各消息之间的关系表示;
[0018]采用所述训练样本集对所述初始结构感知图神经网络进行训练,直至达到预设性能指标,得到所述结构感知图神经网络。
[0019]在本专利技术的一些实施例中,将所述全连接消息图输入预训练得到的结构感知图神经网络,计算各消息节点之间消息边的向量值,还包括:
[0020]所述结构感知图神经网络进行消息传递与聚合操作中,消息节点通过邻居节点和相应消息边的融合进行更新,更新过程可表示为:
[0021][0022][0023][0024]其中,i和j表示相邻的两个消息节点;j'表示消息节点i的相邻节点;u
i
和u
j
分别表示经所述结构感知图神经网络学习到的消息节点i和j对应的向量值;d
ij
表示经所述结构感知图神经网络学习到的消息节点i和j之间消息边的向量值;l表示当前网络的层数;N表示与消息节点i相邻的节点的个数;W
*
*∈{Q,K,V,F,R}表示可学习的参数;
αi
j表示Softmax函数;e
ij
表示计算过程中的中间量,无实义;dim
u
表示消息节点的维度;T表示矩阵转置。
[0025]在本专利技术的一些实施例中,各消息边在各消息节点更新方法的基础上,采用类门控循环单元的门控机制进行计算,更新过程可表示为:
[0026][0027][0028][0029][0030]其中,γ
ij
表示重置门;z
ij
表示更新门;σ表示Sigmoid函数;u
i
和u
j
分别表示经所述结构感知图神经网络学习到的消息节点i和j对应的向量值;d
ij
表示经所述结构感知图神经网络学习到的消息节点i和j之间消息边的向量值;;表示当前网络的层数;W
*
*∈{r,z,h}表示可学习的参数。
[0031]在本专利技术的一些实施例中,根据所述消息关系图和所述消息信息,确定每条消息对应的用户,将得到的各用户作为用户节点,从所述消息关系图中获取各用户之间存在关系的消息边,并累加消息边的第一权值作为相应用户节点之间用户边的第二权值,构建用户关系图,还包括:
[0032]循环遍历所述消息关系图中每一组有边的消息节点;以任意一组为例,获取第一消息节点、第二消息节点及其对应消息边的第一权重;根据所述消息信息获取所述第一消息节点对应的第一用户节点、所述第二消息节点对应的第二用户节点;在所述第一用户节点和所述第二用户节点之间连边,累加循环遍历得到的所有所述第一用户和所述第二用户之间消息边的第一权值,得到所述第一用户节点和所述第二用户节点之间用户边的第二权值,以生成所述用户关系图。
[0033]在本专利技术的一些实施例中,所述用户关系图为有向图,所述用户关系图根据各用户之间消息的回复方向进行有向连接。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种面向聊天群组的关键人物提取方法,其特征在于,该方法包括以下步骤:获取聊天群组中预设数量条消息信息,所述消息信息包括消息内容、消息发送时间、消息编号以及发送消息的用户;基于所述消息信息构建消息序列数组和消息发送时间数组,采用滑动时间窗口算法,将预设时间窗口内的消息作为消息节点进行全连接,生成全连接消息图;将所述全连接消息图输入预训练得到的结构感知图神经网络,计算各消息节点之间消息边的向量值,将各消息边的向量值输入预设的多层感知器层,生成各消息边的第一权值,根据所述第一权值判断对应消息节点之间是否存在关系,所述关系至少包括回复关系和补充关系,保留存在关系的消息边,去除不存在关系的消息边,构建消息关系图;根据所述消息关系图和所述消息信息,确定每条消息对应的用户,将得到的各用户作为用户节点,从所述消息关系图中获取各用户之间的消息边,并累加消息边的第一权值作为相应用户节点之间用户边的第二权值,构建用户关系图;根据所述消息信息统计各用户的发言数,基于各用户的发言数和各用户边的第二权值计算各用户之间的回复概率值,根据所述回复概率值设置预设PageRank算法的分数分配权重;对所述用户关系图采用预设PageRank算法进行迭代,直至收敛,得到各用户节点稳定的PageRank值,并将所述PageRank值作为各用户的影响力分数;按照所述影响力分数对各用户进行排序,根据预设规则提取相应的用户,以得到该聊天群组中的关键人物。2.根据权利要求1所述的面向聊天群组的关键人物提取方法,其特征在于,采用滑动时间窗口算法,将预设时间窗口内的消息作为消息节点进行全连接,生成全连接消息图,还包括:设置所述时间窗口大小,采用所述时间窗口循环遍历所有消息,并循环遍历所述时间窗口内的消息,将属于预设时间段内的两条消息之间连边,以生成全连接消息图。3.根据权利要求1所述的面向聊天群组的关键人物提取方法,其特征在于,将所述全连接消息图输入预训练得到的结构感知图神经网络,所述结构感知图神经网络的训练方法包括以下步骤:获取训练样本集,所述训练样本集包含多个样本,每个样本包括预设数量条消息信息;根据各消息之间是否存在关系,为各消息添加相应的标注;所述关系至少包括回复关系和补充关系;获取初始结构感知图神经网络,将带有标注的各样本输入所述初始结构感知图神经网络,学习各消息之间的关系表示;采用所述训练样本集对所述初始结构感知图神经网络进行训练,直至达到预设性能指标,得到所述结构感知图神经网络。4.根据权利要求1所述的面向聊天群组的关键人物提取方法,其特征在于,将所述全连接消息图输入预训练得到的结构感知图神经网络,计算各消息节点之间消息边的向量值,还包括:所述结构感知图神经网络进行消息传递与聚合操作中,消息节点通过邻居节点和相应消息边的融合进行更新,更新过程可表示为:
其中,i和j表示相邻的两个消息节点;j'表示消息节点i的相邻节点;u
i
和u
j
分别表示经所述结构感知图神经网络学习到的消息节点i和j对应的向量值;d
ij
表示经所述结构感知图神经网络学习到的消息节点i和j之间消息边的向量值;l表示当前网络的层数;N表示与消息节点i相邻的节点的个数;W
*
*∈{Q,K,V,F,R}表示可学习的参数;α
ij
表示Softmax函数;e
ij
...

【专利技术属性】
技术研发人员:张熙张一鸣尚煜茗
申请(专利权)人:北京邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1