System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及用户身份连接,具体为一种基于用户名的用户身份连接方法。
技术介绍
1、用户属性信息在不同的社交网络中具有不同的结构和表示方式,部分用户出于隐私保护的考虑,会伪造用户属性信息。同时,用户的行为属性涉及各种媒体信息,如文字、图片、视频、签到等,这种异构的内容信息使得准确识别用户变得极其困难,用户还可以设置内容信息的显示时间和显示范围,这就造成了数据孤岛。出于隐私和数据量的考虑,在线社交网络无法获得完整的用户网络结构。然而,用户名是最容易获得的信息。用户名包含大量冗余信息。用户名不涉及用户隐私问题。因此,基于用户名的用户身份识别已成为重要的研究方向之一。
2、当前,基于用户名的用户识别主要是通过手工特征来实现的。传统研究利用专家领域知识,通过分析用户名的冗余信息,提取用户名的手工特征。这些方法取得了良好的效果。但是,随着样本数据的增大,算法的识别率会降低。此外,通过匹配用户名来连接中文用户比连接英文用户更具挑战性,因为中文用户可以通过多种方式来命名或重命名他们的用户名(例如,使用中文用户名或将其翻译成英文,使用繁体或简体中文字符,将用户名中的某些单词更改为同音异义字等),传统研究仍然无法完全解决语义丢失问题,特别是对于通常包含丰富语义信息的汉语。
3、综合以上分析可知,现有跨平台用户身份识别连接方法存在准确率较低的问题。
技术实现思路
1、本专利技术针对现有跨平台用户身份连接方法准确率较低的问题,提供了一种基于用户名的用户身份连接方法,包括以下步骤:
2、收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集;
3、构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,获得训练后的基于cross-encoder的深度特征提取模型;
4、将用户身份数据集输入基于cross-encoder的深度特征提取模型,将cross-encoder输出的句子相似度作为深度模型相似度特征,获得用户身份数据集中每两个用户名之间的深度模型相似度特征;
5、根据用户的命名习惯和汉字特征,以最优相似度匹配、最长公共子串、jaccard相似度距离、按键相似度距离为基础的度量指标,提取15个手工特征,通过计算用户身份数据集中每两个用户名之间的手工特征,计算用户身份数据集中每两个用户名之间的基于手工特征的相似度特征;
6、基于自适应加权方法构建特征融合网络,将用户身份数据集中每两个用户名之间的深度模型相似度特征和基于手工特征的相似度特征输入特征融合网络进行特征融合,获得用户身份数据集中每两个用户名之间的归一化特征;对用户身份数据集中每两个用户名之间的归一化特征进行逻辑回归分类;利用逻辑层对分类后的用户身份数据集中每两个用户名之间的归一化特征进行识别,获得用户身份数据集中每两个用户名之间的相似度;根据用户身份数据集中每两个用户名之间的相似度将用户身份数据集中相似度高的用户名连接起来。
7、进一步的,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:
8、收集各个用户在不同社交网络中的用户名信息,构建用户身份数据集;
9、通过一个分布式爬虫系统针对中文网站来进行数据爬取,爬取的内容是用户名和用户简介,利用用户在个人简介中留下的另一平台的账号id进行跨平台账号关联。
10、进一步的,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,具体包括:
11、应用bert模型提取用户名的深度特征表示,bert模型使用双向的transformer的encoder部分学习每个单词的上下文信息,获得词向量表示。
12、进一步的,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,还包括:
13、将训练数据输入深度特征提取模型,采用bert预训练方法对深度特征提取模型进行微调;其中bert在默认情况下配备特征提取和双向编码技能,sentence transformer为构建cross-encoder模型提供cross-encoder预训练参数,处理成对的句子评分和分类任务。
14、进一步的,所述将用户身份数据集输入基于cross-encoder的深度特征提取模型,将cross-encoder输出的句子相似度作为深度模型相似度特征,获得用户身份数据集中每两个用户名之间的深度模型相似度特征,具体包括:
15、对于基于cross-encoder的深度特征提取模型,将两个用户名添加到分隔符标签中,并将它们一起传递给加载了多语言预训练模型参数的bert;
16、以文本对输入后进行判别得到一个介于0到1的概率权重输出,作为深度学习模型的判别输出,表示输入用户名对的相似性;将cross-encoder输出的句子相似度作为深度模型相似度特征。
17、进一步的,所述通过计算用户身份数据集中每两个用户名之间的手工特征,计算用户身份数据集中每两个用户名之间的基于手工特征的相似度特征,具体包括:
18、在用户身份数据集上提取手工制作的特征,两个用户名之间的相似性由基于用户名的特性的属性表示,个人为不同光交换网络osn(optical switchnetwork)站点选择的用户名为短文本,反映用户的命名习惯,具有丰富的冗余性,基于这些属性确定两个用户名是否属于同一个人;
19、考虑中文和英文字符,将其他语言或符号视为特殊字符,根据用户的命名习惯和汉字特征,提取以最优相似度匹配、最长公共子串、jaccard相似度距离、按键相似度距离为基础的度量指标,共计15个手工特征;
20、给定两个用户的用户名,通过计算15个手工特征来计算每个用户的用户名之间的相似性,将归一化后的数据输入到深度神经网络中,得到基于手工特征的最终分类结果;
21、其中,15个手工特征包括:用户名之间最优匹配的平均值、用户名之间的最大最优匹配、用户名字母分布之间的jaccard相似度、用户名之间的最长公共子串相似度、最长公共子串最小长度比较、最长公共子串最大长度比较、最长公共子序列最小长度比较、最长公共子序列最大长度比较、用户名之间的编辑距离、用户名之间的归一化编辑距离、用户名之间最大编辑距离、用户名之间最小编辑距离、用户名之间最长公共子串的长度、用户名之间的最长公共子序列的长度、使用qwerty键盘输入用户名时行进距离的标准偏差。
22、进一步的,所述通过计算用户身份数据集中每两个用户名之间的手工特征,计算用户身份数据集中每两个用户名之间的基于手工特征的相似度特征,还包括:
23、在用户名手工特征中注入注意机制,增加重要特征的权重,提取关键特征,获取用户名中每个手工制作的特征的概率权重;
24、手工制作的用户名特征向量通过全连接网络得到得分向量,然后通过softmax函数生成概率关注权本文档来自技高网...
【技术保护点】
1.一种基于用户名的用户身份连接方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:
3.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于Cross-Encoder的深度特征提取模型,利用BERT预训练方法进行训练,具体包括:
4.如权利要求3所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于Cross-Encoder的深度特征提取模型,利用BERT预训练方法进行训练,还包括:
5.如权利要求4所述的一种基于用户名的用户身份连接方法,其特征在于,所述将用户身份数据集输入基于Cross-Encoder的深度特征提取模型,将Cross-Encoder输出的句子相似度作为深度模型相似度特征,获得用户身份数据集中每两个用户名之间的深度模型相似度特征,具体包括:
6.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述通过计算用户身份数据集中每两个
7.如权利要求6所述的一种基于用户名的用户身份连接方法,其特征在于,所述通过计算用户身份数据集中每两个用户名之间的手工特征,计算用户身份数据集中每两个用户名之间的基于手工特征的相似度特征,还包括:
8.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述根据用户身份数据集中每两个用户名之间的相似度将用户身份数据集中相似度高的用户名连接起来,具体包括:
9.如权利要求8所述的一种基于用户名的用户身份连接方法,其特征在于,所述根据用户身份数据集中每两个用户名之间的相似度将用户身份数据集中相似度高的用户名连接起来,还包括:
...【技术特征摘要】
1.一种基于用户名的用户身份连接方法,其特征在于,包括以下步骤:
2.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述收集跨社交网络的多语言用户名的用户身份数据,构建用户身份数据集,具体包括:
3.如权利要求1所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,具体包括:
4.如权利要求3所述的一种基于用户名的用户身份连接方法,其特征在于,所述构建基于cross-encoder的深度特征提取模型,利用bert预训练方法进行训练,还包括:
5.如权利要求4所述的一种基于用户名的用户身份连接方法,其特征在于,所述将用户身份数据集输入基于cross-encoder的深度特征提取模型,将cross-encoder输出的句子相似度作为深度模型相似度特征,获得用户身份数据集中每两...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。