当前位置: 首页 > 专利查询>哈尔滨学院专利>正文

一种基于用户名的用户身份连接方法技术

技术编号:40318902 阅读:32 留言:0更新日期:2024-02-07 21:02
本发明专利技术公开了一种基于用户名的用户身份连接方法,涉及用户身份连接技术领域,本发明专利技术结合了用户名的手工特征和深度特征;首先,根据中国用户社交网络用户名的特征提取手工特征;然后,应用深度学习中预训练的多语言模型提取用户名的深度特征;最后,将用户名的手工特征和深度特征进行融合,并将融合后的特征应用于跨多个社交网络的用户识别;可以看出,本发明专利技术将手工特征与深度特征融合,弥补了手工特征与深度特征的不足,本发明专利技术使用融合特征来克服效率问题;同时,融合特征还可以解决正样本数据不足的问题。

【技术实现步骤摘要】

本专利技术涉及用户身份连接,具体为一种基于用户名的用户身份连接方法


技术介绍

1、用户属性信息在不同的社交网络中具有不同的结构和表示方式,部分用户出于隐私保护的考虑,会伪造用户属性信息。同时,用户的行为属性涉及各种媒体信息,如文字、图片、视频、签到等,这种异构的内容信息使得准确识别用户变得极其困难,用户还可以设置内容信息的显示时间和显示范围,这就造成了数据孤岛。出于隐私和数据量的考虑,在线社交网络无法获得完整的用户网络结构。然而,用户名是最容易获得的信息。用户名包含大量冗余信息。用户名不涉及用户隐私问题。因此,基于用户名的用户身份识别已成为重要的研究方向之一。

2、当前,基于用户名的用户识别主要是通过手工特征来实现的。传统研究利用专家领域知识,通过分析用户名的冗余信息,提取用户名的手工特征。这些方法取得了良好的效果。但是,随着样本数据的增大,算法的识别率会降低。此外,通过匹配用户名来连接中文用户比连接英文用户更具挑战性,因为中文用户可以通过多种方式来命名或重命名他们的用户名(例如,使用中文用户名或将其翻译成英文,使用繁体或简体中文字符,将用户本文档来自技高网...

【技术保护点】

1.一种基于用户名的用户身份连接方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:

3.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于Cross-Encoder的深度特征提取模型,利用BERT预训练方法进行训练,具体包括:

4.如权利要求3所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于Cross-Encoder的深度特征提取模型,利用BERT预训练方法进行训练,还包括:

...

【技术特征摘要】

1.一种基于用户名的用户身份连接方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:

3.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,具体包括:

4.如权利要求3所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,还包括:

5.如权利要求4所述的一种基于用户名的用户身份连接方法,其特征在于,所述将用户身份数据集输入基于cross-encoder的深度特征提取模型,将cross-encoder输出的句子相似度作为深度模型相似度特征,获得用户身份数据集中每两...

【专利技术属性】
技术研发人员:毛岩
申请(专利权)人:哈尔滨学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1