当前位置: 首页 > 专利查询>复旦大学专利>正文

社交媒体用户表征模型,模型的预训练方法、文本图框架技术

技术编号:40179084 阅读:33 留言:0更新日期:2024-01-26 23:46
本发明专利技术的目的提供一种社交媒体用户表征模型,模型的预训练方法、以及模型设计中的文本图框架,所述方法包括:通过对社交媒体用户的言论进行分词来构建不同粒度的文本语义表示,通过点互信息方法构建文本之间的关系,进一步通过文本图模型构建用户表示;基于社交网络中的用户关注信息,在预训练阶段构建了多个自监督训练任务,通过用户间、用户内两个层次的任务,训练模型能够对不同社群下的不同用户、不同社群下的同一用户的表示进行分辨,得到融合社交媒体通用结构信息的用户表征模型以完成下游的多种社交媒体用户级别任务。

【技术实现步骤摘要】

本专利技术涉及计算机领域,尤其涉及一种社交媒体用户表征模型,模型的预训练方法、以及模型设计中的文本图框架。


技术介绍

1、对社交媒体用户进行建模是数字社会时代下社会治理的核心。为了协同处理来自文本和社交网络的信息,研究者尝试去构建融合了不同的数字痕迹的用户表示模型以更好地学习社交媒体用户的表示,包括由预训练语言模型编码的文本信息和由图模型编码的社交网络信息。

2、尽管目前的研究方法在一些用户级的下游任务上有不错的表现,然而,受限于过量的文本信息和难以收集的社交网络信息,它们无法利用全局的用户文本信息,并且在没有社会关系的情况下难以泛化。现有工作中对于社交网络中用户结构信息的探索也主要局限于用户间的网络关系,对于用户在社交网络上多样性的探索不足。


技术实现思路

1、本说明书实施方式的目的是提供一种社交媒体用户表征模型,模型的预训练方法,以及模型设计中的文本图框架。本说明书实施方式提供的新的文本图用户表征模型和预训练方法,可以将社交媒体的通用结构信息注入到模型中,并对用户的全局言论信息进行建模。进一步本文档来自技高网...

【技术保护点】

1.一种社交媒体用户的表征模型的训练生成方法,其特征在于,所述训练生成方法包括:

2.如权利要求1所述方法,其特征在于,步骤“以字、词等混合粒度的文本作为图上的节点,通过点互信息计算节点间的连边,从而构建出文本图;以构建出的所述文本图作为输入,基于图同构网络构建用户表示”包括:

3.如权利要求1所述方法,其特征在于,应用于自监督地训练所述表征模型,所述方法包括:

4.一种社交媒体用户的表征模型的训练生成方法,其特征在于,包括以下步骤:

5.根据权利要求4所述的社交媒体用户的表征模型的训练生成方法,其特征在于,步骤“在用户的每个历史言论上使用...

【技术特征摘要】

1.一种社交媒体用户的表征模型的训练生成方法,其特征在于,所述训练生成方法包括:

2.如权利要求1所述方法,其特征在于,步骤“以字、词等混合粒度的文本作为图上的节点,通过点互信息计算节点间的连边,从而构建出文本图;以构建出的所述文本图作为输入,基于图同构网络构建用户表示”包括:

3.如权利要求1所述方法,其特征在于,应用于自监督地训练所述表征模型,所述方法包括:

4.一种社交媒体用户的表征模型的训练生成方法,其特征在于,包括以下步骤:

5.根据权利要求4所述的社交媒体用户的表征模型的训练生成方法,其特征在于,步骤“在用户的每个历史言论上使用固定大小的滑动窗口来收集共现统计数据,...

【专利技术属性】
技术研发人员:魏忠钰吴焜
申请(专利权)人:复旦大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1