System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 社交媒体用户表征模型,模型的预训练方法、文本图框架技术_技高网
当前位置: 首页 > 专利查询>复旦大学专利>正文

社交媒体用户表征模型,模型的预训练方法、文本图框架技术

技术编号:40179084 阅读:7 留言:0更新日期:2024-01-26 23:46
本发明专利技术的目的提供一种社交媒体用户表征模型,模型的预训练方法、以及模型设计中的文本图框架,所述方法包括:通过对社交媒体用户的言论进行分词来构建不同粒度的文本语义表示,通过点互信息方法构建文本之间的关系,进一步通过文本图模型构建用户表示;基于社交网络中的用户关注信息,在预训练阶段构建了多个自监督训练任务,通过用户间、用户内两个层次的任务,训练模型能够对不同社群下的不同用户、不同社群下的同一用户的表示进行分辨,得到融合社交媒体通用结构信息的用户表征模型以完成下游的多种社交媒体用户级别任务。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种社交媒体用户表征模型,模型的预训练方法、以及模型设计中的文本图框架。


技术介绍

1、对社交媒体用户进行建模是数字社会时代下社会治理的核心。为了协同处理来自文本和社交网络的信息,研究者尝试去构建融合了不同的数字痕迹的用户表示模型以更好地学习社交媒体用户的表示,包括由预训练语言模型编码的文本信息和由图模型编码的社交网络信息。

2、尽管目前的研究方法在一些用户级的下游任务上有不错的表现,然而,受限于过量的文本信息和难以收集的社交网络信息,它们无法利用全局的用户文本信息,并且在没有社会关系的情况下难以泛化。现有工作中对于社交网络中用户结构信息的探索也主要局限于用户间的网络关系,对于用户在社交网络上多样性的探索不足。


技术实现思路

1、本说明书实施方式的目的是提供一种社交媒体用户表征模型,模型的预训练方法,以及模型设计中的文本图框架。本说明书实施方式提供的新的文本图用户表征模型和预训练方法,可以将社交媒体的通用结构信息注入到模型中,并对用户的全局言论信息进行建模。进一步,本说明书实施方式提供了多级别的预训练方法,该方法引入了多个自监督对比学习任务,能够促使模型理解不同层次的用户信息,更好地学习用户的表征。

2、为实现上述目的,本说明书实施方式提供了一种社交媒体用户的表征模型,应用于对用户全量历史文本的输入进行表示,所述方法包括:以用户文本信息作为输入,基于文本构建语义表示,并通过多级别的预训练方法得到融合通用社交媒体结构信息的用户表示;其中,所输入的文本信息通过分词器,基于预定义好的关键词表形成字、词级别的节点,字、词通过词嵌入层得到对应的表示作为文本图节点的表示;通过基于滑动窗口计算得到的点互信息作为文本图节点之间的连边,利用文本图模型聚合所有微博来表示社交媒体用户,并学习从微博到用户表示的映射;所述多级别预训练方法包括用户间和用户内对比学习任务,旨在将通用结构信息注入到映射中,通过文本图编码器建模得到用户表示。

3、在一个实施方式中,在基于文本构建语义表示的步骤中包括:对于输入的文本,首先通过分词器和关键词表得到字、词的序列,通过可学习的嵌入层得到字、词的表示作为文本图的节点表示,通过滑动窗口计算点互信息作为节点之间的连边,形成文本图后将其输入图同构网络中获得文本的语义表示。

4、在一个实施方式中,所述的多级别预训练方法包括:用户间对比学习任务,该任务对于每个锚用户,将相关用户作为正样本,而将其他不相关的用户作为负样本。用户内对比学习任务,该任务将每个用户的社交网络划分为多个社区,对于每一个用户,我们从不同社区采样子图,形成不同维度的用户子图。这样,我们针对同一用户,将来自同一社区的采样子图视为锚点和正样本,而来自不同社区的样本则视为负样本。

5、在一个实施方式中,所述的文本图框架包括:基于文本图模型编码文本图输入,得到语义进行充分交互后的文本表示,通过平均池化的方法得到整图的表示,即为用户的表示,以一种高效的方式完成用户建模。

6、由以上本说明书实施方式提供的技术方案可见,本说明书实施方式的目的是提供一种社交媒体用户表征模型,模型的预训练方法、以及模型设计中的文本图框架。本说明书实施方式的提供的新的社交媒体用户表示模型,可以有效地从用户历史文本输入中构建全局的语义表示;进一步,本说明书实施方式的模型的预训练方法、以及模型设计中的文本图框架,该训练方法在自监督的设定下为模型提供了多层次的监督信号,能基于用户间的社交网络关系和用户在不同社区下的网络关系学习到用户在社交网络中的通用信息。实验的结果也证明了本说明书提供的模型和训练方法和装置可以有效地学习到充分融合了结构信息的用户表征。在得到更优的用户表征后可以更好的对用户画像进行分类,向用户推荐、搜索、广告等应用,基于用户特征聚类、筛选等数据分析工作。

本文档来自技高网...

【技术保护点】

1.一种社交媒体用户的表征模型的训练生成方法,其特征在于,所述训练生成方法包括:

2.如权利要求1所述方法,其特征在于,步骤“以字、词等混合粒度的文本作为图上的节点,通过点互信息计算节点间的连边,从而构建出文本图;以构建出的所述文本图作为输入,基于图同构网络构建用户表示”包括:

3.如权利要求1所述方法,其特征在于,应用于自监督地训练所述表征模型,所述方法包括:

4.一种社交媒体用户的表征模型的训练生成方法,其特征在于,包括以下步骤:

5.根据权利要求4所述的社交媒体用户的表征模型的训练生成方法,其特征在于,步骤“在用户的每个历史言论上使用固定大小的滑动窗口来收集共现统计数据,并采用点互信息来链接词语、字符节点”包括:

6.根据权利要求4所述的社交媒体用户的表征模型的训练生成方法,其特征在于,步骤“在构建代表用户的文本图之后,使用图同构网络来更新和聚合,从而根据上下文更新节点表示并获得用户表示”包括:

7.根据权利要求4所述的社交媒体用户的表征模型的训练生成方法,其特征在于,步骤“构建用户间对比学习任务和构建用户内对比学习任务,从而注入图同构网络”包括:

8.一种模型训练装置,其特征在于,应用于社交媒体用户表征模型,所述装置包括:

9.一种社交媒体用户表示方法,其特征在于,所述方法包括:

10.一种用户表示装置,其特征在于,所述装置包括:

...

【技术特征摘要】

1.一种社交媒体用户的表征模型的训练生成方法,其特征在于,所述训练生成方法包括:

2.如权利要求1所述方法,其特征在于,步骤“以字、词等混合粒度的文本作为图上的节点,通过点互信息计算节点间的连边,从而构建出文本图;以构建出的所述文本图作为输入,基于图同构网络构建用户表示”包括:

3.如权利要求1所述方法,其特征在于,应用于自监督地训练所述表征模型,所述方法包括:

4.一种社交媒体用户的表征模型的训练生成方法,其特征在于,包括以下步骤:

5.根据权利要求4所述的社交媒体用户的表征模型的训练生成方法,其特征在于,步骤“在用户的每个历史言论上使用固定大小的滑动窗口来收集共现统计数据,...

【专利技术属性】
技术研发人员:魏忠钰吴焜
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1