【技术实现步骤摘要】
本专利技术涉及用户身份连接,具体为一种基于用户名的用户身份连接方法。
技术介绍
1、用户属性信息在不同的社交网络中具有不同的结构和表示方式,部分用户出于隐私保护的考虑,会伪造用户属性信息。同时,用户的行为属性涉及各种媒体信息,如文字、图片、视频、签到等,这种异构的内容信息使得准确识别用户变得极其困难,用户还可以设置内容信息的显示时间和显示范围,这就造成了数据孤岛。出于隐私和数据量的考虑,在线社交网络无法获得完整的用户网络结构。然而,用户名是最容易获得的信息。用户名包含大量冗余信息。用户名不涉及用户隐私问题。因此,基于用户名的用户身份识别已成为重要的研究方向之一。
2、当前,基于用户名的用户识别主要是通过手工特征来实现的。传统研究利用专家领域知识,通过分析用户名的冗余信息,提取用户名的手工特征。这些方法取得了良好的效果。但是,随着样本数据的增大,算法的识别率会降低。此外,通过匹配用户名来连接中文用户比连接英文用户更具挑战性,因为中文用户可以通过多种方式来命名或重命名他们的用户名(例如,使用中文用户名或将其翻译成英文,使用繁体或
...【技术保护点】
1.一种基于用户名的用户身份连接方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:
3.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于Cross-Encoder的深度特征提取模型,利用BERT预训练方法进行训练,具体包括:
4.如权利要求3所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于Cross-Encoder的深度特征提取模型,利用BERT预训练方法进行训
...【技术特征摘要】
1.一种基于用户名的用户身份连接方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:
3.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,具体包括:
4.如权利要求3所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,还包括:
5.如权利要求4所述的一种基于用户名的用户身份连接方法,其特征在于,所述将用户身份数据集输入基于cross-encoder的深度特征提取模型,将cross-encoder输出的句子相似度作为深度模型相似度特征,获得用户身份数据集中每两...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。