一种基于语言模型的用户关系分析方法、装置及存储介质制造方法及图纸

技术编号：34739741 阅读：15 留言：0更新日期：2022-08-31 18:31

本发明专利技术公开了一种基于语言模型的用户关系分析方法、装置及存储介质，属于人工智能与数据挖掘技术领域，包括以下步骤：基于边缘的随机游走生成节点序列，所述节点序列视为社区组合；根据所述S1中采样的节点序列，训练两个具有不同超参数的主题模型，并分别用于学习基于结构和基于文本属性的社区分布；根据社区分布情况，通过Sk i p

全部详细技术资料下载

【技术实现步骤摘要】
一种基于语言模型的用户关系分析方法、装置及存储介质

[0001]本专利技术属于人工智能与数据挖掘
，尤其涉及一种基于语言模型的用户关系分析方法、装置及存储介质。

技术介绍

[0002]目前，网络嵌入能够学习网络中节点的低维稠密向量，同时保持其性质，从而使得现有的机器能够学习算法，并有效地执行各种网络分析任务，如链接预测和节点分类。
[0003]虽然以往已经提出了很多用于学习网络表示的方法，但绝大多数模型倾向于提取节点的上下文信息，然后捕获它们之间的低阶或高阶接近度。例如，DeepWalk为每个节点生成随机游动，并将其作为上下文信息来学习节点表示。Node2Vec通过使用两个预设参数来控制随机行走过程，进一步扩展了DeepWalk，该过程提供了广度优先和深度优先图形搜索之间的折衷。然而，DeepWalk和Node2Vec都存在密集网络上采样不足的问题，因此一些局部模式将无法反映。即这些研究工作主要集中在保留网络的微观结构，而忽略了全局模式，即使考虑了属性或标签信息。因此，学习到的表示不能很好地适应不同的网络分析任务。
[0004]同时，由于网络通常包含丰富的社区信息，这在社区级应用程序(如网络可视化)中至关重要，因此，一些研究人员引入了基于模块化的算法来保存社区信息，导致详细探索社区变得更加困难。此外，节点的文本内容对于网络分析也很重要，在属性网络嵌入中需要考虑这些内容。而大多数方法直接对TF
–
IDF矩阵进行降维，这种简单的方法只能度量文本相似度，并不能度量单词的语义相似度。<...

【技术保护点】

【技术特征摘要】
1.一种基于语言模型的用户关系分析方法，其特征在于，包括以下步骤：S1、基于边缘的随机游走生成节点序列，所述节点序列视为社区组合；S2、根据所述S1中采样的节点序列，训练两个具有不同超参数的主题模型，并分别用于学习基于结构和基于文本属性的社区分布；S3、根据社区分布情况，通过Skip
‑
Gram模型来学习节点的向量表示；S4、根据现有用户关系之间的向量距离，推荐当前用户与之相关联的用户。2.根据权利要求1所述的一种基于语言模型的用户关系分析方法，其特征在于，所述S1中的基于边缘的随机游走生成节点序列，为将网络划设为多个社区组成，并将网络中的节点归为社区，且将一个完整的序列视为不同社区的组合，从而使主题模型根据未观察到的社区学习节点的相似性进行节点分组，分组后的节点构成了可观察序列。3.根据权利要求2所述的一种基于语言模型的用户关系分析方法，其特征在于，所述主题模型为一个迭代的算法，通过吉布斯采样以统计频次的方式估算两种概率分布，所述两种概率分别为“给定社区c，其中节点v在社区c中的概率”以及“给定节点序列s，从中选择一个节点是属于社区c的概率”，并利用这两个条件分布来估计随机游动序列中的一个节点属于每个社区的概率，从而初步检测网络的社区结构。4.根据权利要求1所述的一种基于语言模型的用户关系分析方法，其特征在于，对所述S1中采样的节点序列，训练两个具有不同超参数的主题模型分别用于学习基于结构和基于文本属性的社区分布，主要步骤包括：S201、早期阶段，使用网络上的原始随机游动，并将生成的节点序列输入到基于结构的主题模型中，通过不断更新迭代来学习初步的全局模式和基于结构的社区，且所述不同社区中的节点之间设有边界；S202、后续阶段，采用基于余量的随机游动，经过不断迭代来明确社区，且不同社区之间的边界将扩大，随机游动倾向于访问特定社区中的节点；S203、基于结构的社区的节点概率指导节点序列生成过程；S204、基于文本的...

【专利技术属性】
技术研发人员：池润清，叶剑雄，张海栋，黄花，赵中凯，
申请(专利权)人：池润清，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人