当前位置: 首页 > 专利查询>池润清专利>正文

一种基于语言模型的用户关系分析方法、装置及存储介质制造方法及图纸

技术编号:34739741 阅读:15 留言:0更新日期:2022-08-31 18:31
本发明专利技术公开了一种基于语言模型的用户关系分析方法、装置及存储介质,属于人工智能与数据挖掘技术领域,包括以下步骤:基于边缘的随机游走生成节点序列,所述节点序列视为社区组合;根据所述S1中采样的节点序列,训练两个具有不同超参数的主题模型,并分别用于学习基于结构和基于文本属性的社区分布;根据社区分布情况,通过Sk i p

【技术实现步骤摘要】
一种基于语言模型的用户关系分析方法、装置及存储介质


[0001]本专利技术属于人工智能与数据挖掘
,尤其涉及一种基于语言模型的用户关系分析方法、装置及存储介质。

技术介绍

[0002]目前,网络嵌入能够学习网络中节点的低维稠密向量,同时保持其性质,从而使得现有的机器能够学习算法,并有效地执行各种网络分析任务,如链接预测和节点分类。
[0003]虽然以往已经提出了很多用于学习网络表示的方法,但绝大多数模型倾向于提取节点的上下文信息,然后捕获它们之间的低阶或高阶接近度。例如,DeepWalk为每个节点生成随机游动,并将其作为上下文信息来学习节点表示。Node2Vec通过使用两个预设参数来控制随机行走过程,进一步扩展了DeepWalk,该过程提供了广度优先和深度优先图形搜索之间的折衷。然而,DeepWalk和Node2Vec都存在密集网络上采样不足的问题,因此一些局部模式将无法反映。即这些研究工作主要集中在保留网络的微观结构,而忽略了全局模式,即使考虑了属性或标签信息。因此,学习到的表示不能很好地适应不同的网络分析任务。
[0004]同时,由于网络通常包含丰富的社区信息,这在社区级应用程序(如网络可视化)中至关重要,因此,一些研究人员引入了基于模块化的算法来保存社区信息,导致详细探索社区变得更加困难。此外,节点的文本内容对于网络分析也很重要,在属性网络嵌入中需要考虑这些内容。而大多数方法直接对TF

IDF矩阵进行降维,这种简单的方法只能度量文本相似度,并不能度量单词的语义相似度。<br/>[0005]为此,我们提出来一种基于语言模型的用户关系分析方法、装置及存储介质解决上述问题。

技术实现思路

[0006]本专利技术的目的是为了解决上述问题,而提出的一种基于语言模型的用户关系分析方法、装置及存储介质。
[0007]为了实现上述目的,本专利技术采用了如下技术方案:
[0008]一种基于语言模型的用户关系分析方法,包括以下步骤:
[0009]S1、基于边缘的随机游走生成节点序列,所述节点序列视为社区组合;
[0010]S2、根据所述S1中采样的节点序列,训练两个具有不同超参数的主题模型,并分别用于学习基于结构和基于文本属性的社区分布;
[0011]S3、根据社区分布情况,通过Skip

Gram模型来学习节点的向量表示;
[0012]S4、根据现有用户关系之间的向量距离,推荐当前用户与之相关联的用户。
[0013]作为进一步的优选方案,所述S1中的基于边缘的随机游走生成节点序列,为将网络划设为多个社区组成,并将网络中的节点归为社区,且将一个完整的序列视为不同社区的组合,从而使主题模型根据未观察到的社区学习节点的相似性进行节点分组,分组后的节点构成了可观察序列。
[0014]作为进一步的优选方案,所述主题模型为一个迭代的算法,通过吉布斯采样以统计频次的方式估算两种概率分布,所述两种概率分别为“给定社区c,其中节点v在社区c中的概率”以及“给定节点序列s,从中选择一个节点是属于社区c的概率”,并利用这两个条件分布来估计随机游动序列中的一个节点属于每个社区的概率,从而初步检测网络的社区结构。
[0015]作为进一步的优选方案,对所述S1中采样的节点序列,训练两个具有不同超参数的主题模型分别用于学习基于结构和基于文本属性的社区分布,主要步骤包括:
[0016]S201、早期阶段,使用网络上的原始随机游动,并将生成的节点序列输入到基于结构的主题模型中,通过不断更新迭代来学习初步的全局模式和基于结构的社区,且所述不同社区中的节点之间设有边界;
[0017]S202、后续阶段,采用基于余量的随机游动,经过不断迭代来明确社区,且不同社区之间的边界将扩大,随机游动倾向于访问特定社区中的节点;
[0018]S203、基于结构的社区的节点概率指导节点序列生成过程;
[0019]S204、基于文本的社区的节点概率将连接到Skip

Gram模型获得的原始表示向量。
[0020]作为进一步的优选方案,所述S3为根据社区分布情况,通过Skip

Gram模型来学习节点的向量表示。
[0021]作为进一步的优选方案,所述S4为根据现有用户关系的网络结构,判断未连接当前用户的向量距离,若未连接当前用户的向量距离比已连接当前用户的向量距离小,则判断未连接用户为相关联的用户,并进行推荐。
[0022]作为进一步的优选方案,为了降低后验社区分布和真实社区分布之间的偏差,必须确保文档长度不小于文档总数的对数,且基于同一社区中的节点紧密相连且属性高度相似的事实,将节点的文本特征聚合到相邻节点的文本特征中,形成一个文档,在满足文档长度限制的同时保持一阶近似。
[0023]一种基于语言模型的用户关系分析装置,用于实现上述的一种基于语言模型的用户关系方法,包括节点序列生成模块、社区分布确定模块以及处理模块,节点序列生成模块、社区分布确定模块以及处理模块共同实现上述方法。
[0024]一种基于语言模型的用户关系分析储存介质,用于实现上述的一种基于语言模型的用户关系方法,所述储存介质适用于处理器、通信接口、存储器和通信总线,其中,所述处理器、所述通信接口以及所述存储器通过通信总线完成相互间的通信。
[0025]作为进一步的优选方案,所述存储器用于存放计算机程序,所述处理器执行所述存储器中存放的计算机程序时,实现上述方法。
[0026]综上所述,本专利技术的技术效果和优点:
[0027]该基于语言模型的用户关系分析方法,能够将主题模型引入到通过随机游走生成的节点序列中,以捕获网络的社区信息。与传统的网络嵌入算法相比,能够有效地提取社区信息和属性特征,从而学习更有效和有意义的表示,并配合一种灵活的面向社区的随机游走策略,无需预先检测社区。
[0028]该基于语言模型的用户关系分析方法,在社区之间引入了边界,能够自适应地控制随机游动的范围,解决了基于随机游动的方法无法在稠密网络上采样足够多的游动序列的问题。
[0029]该基于语言模型的用户关系分析装置,得益于节点序列生成模块、社区分布确定模块以及处理模块,能够通过语言模型深度学习算法,能够自适应的智能提取用户之间的关系,分析用户所形成的社区,进行关联用户的推荐,从而有效地提取社区信息和属性特征,学习更有效、更有意义的表示。
附图说明
[0030]图1为本专利技术的基于语言模型的用户分析方法的流程图;
[0031]图2为本专利技术的基于语言模型的用户分析装置的模块示意图;
[0032]图3为本专利技术的基于语言模型的用户分析存储介质的示意图。
[0033]图中:1、节点序列生成模块;2、社区分布确定模块;3、处理模块;4、处理器;5、通信接口;6、存储器;7、通信总线。
具体实施方式
[0034]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于语言模型的用户关系分析方法,其特征在于,包括以下步骤:S1、基于边缘的随机游走生成节点序列,所述节点序列视为社区组合;S2、根据所述S1中采样的节点序列,训练两个具有不同超参数的主题模型,并分别用于学习基于结构和基于文本属性的社区分布;S3、根据社区分布情况,通过Skip

Gram模型来学习节点的向量表示;S4、根据现有用户关系之间的向量距离,推荐当前用户与之相关联的用户。2.根据权利要求1所述的一种基于语言模型的用户关系分析方法,其特征在于,所述S1中的基于边缘的随机游走生成节点序列,为将网络划设为多个社区组成,并将网络中的节点归为社区,且将一个完整的序列视为不同社区的组合,从而使主题模型根据未观察到的社区学习节点的相似性进行节点分组,分组后的节点构成了可观察序列。3.根据权利要求2所述的一种基于语言模型的用户关系分析方法,其特征在于,所述主题模型为一个迭代的算法,通过吉布斯采样以统计频次的方式估算两种概率分布,所述两种概率分别为“给定社区c,其中节点v在社区c中的概率”以及“给定节点序列s,从中选择一个节点是属于社区c的概率”,并利用这两个条件分布来估计随机游动序列中的一个节点属于每个社区的概率,从而初步检测网络的社区结构。4.根据权利要求1所述的一种基于语言模型的用户关系分析方法,其特征在于,对所述S1中采样的节点序列,训练两个具有不同超参数的主题模型分别用于学习基于结构和基于文本属性的社区分布,主要步骤包括:S201、早期阶段,使用网络上的原始随机游动,并将生成的节点序列输入到基于结构的主题模型中,通过不断更新迭代来学习初步的全局模式和基于结构的社区,且所述不同社区中的节点之间设有边界;S202、后续阶段,采用基于余量的随机游动,经过不断迭代来明确社区,且不同社区之间的边界将扩大,随机游动倾向于访问特定社区中的节点;S203、基于结构的社区的节点概率指导节点序列生成过程;S204、基于文本的...

【专利技术属性】
技术研发人员:池润清叶剑雄张海栋黄花赵中凯
申请(专利权)人:池润清
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1