【技术实现步骤摘要】
基于联邦学习的数据匹配方法和装置
[0001]本专利技术涉及联邦学习
,尤其涉及一种基于联邦学习的数据匹配方法和装置。
技术介绍
[0002]在进行纵向联邦学习训练时,发起方和数据提供方先要进行数据对齐,然后在协调方的参与下完成后续的模型训练,在此之前,需先进行联邦数据的匹配。相关匹配技术中,主要包括局部搜索、三方推荐和固定参与方等匹配策略,但通过这些方法所匹配得到的数据存在数据量有限、数据质量较差以及数据同质化严重等问题。
技术实现思路
[0003]本专利技术提供一种基于联邦学习的数据匹配方法和装置,用以解决现有技术中纵向联邦学习过程中数据匹配效果差的缺陷,实现高质量的数据匹配。
[0004]本专利技术提供一种基于联邦学习的数据匹配方法,包括:
[0005]分别计算第一数据集对应的第一数据标签和多个第二数据集对应的多个第二数据标签之间的相似度,生成多个标签匹配度;
[0006]分别计算所述第一数据集对应的第一数据特征集和所述多个第二数据集对应的多个第二数据特征集之间的相似度,生 ...
【技术保护点】
【技术特征摘要】
1.一种基于联邦学习的数据匹配方法,其特征在于,包括:分别计算第一数据集对应的第一数据标签和多个第二数据集对应的多个第二数据标签之间的相似度,生成多个标签匹配度;分别计算所述第一数据集对应的第一数据特征集和所述多个第二数据集对应的多个第二数据特征集之间的相似度,生成多个数据内容匹配度;基于所述第一数据集与同一所述第二数据集之间的所述标签匹配度和所述数据内容匹配度,从所述多个第二数据集中确定目标数据集作为所述第一数据集的联邦匹配数据。2.根据权利要求1所述的基于联邦学习的数据匹配方法,其特征在于,所述基于所述第一数据集与同一所述第二数据集之间的所述标签匹配度和所述数据内容匹配度,从所述多个第二数据集中确定目标数据集作为所述第一数据集的联邦匹配数据,包括:基于所述第一数据集与同一所述第二数据集之间的所述标签匹配度和所述数据内容匹配度,生成综合匹配度;对所述综合匹配度进行降序排序,将排序靠前的目标数量个所述综合匹配度所对应的所述第二数据集确定为所述目标数据集;或者,对所述综合匹配度进行升序排序,将排序靠后的目标数量个所述综合匹配度所对应的所述第二数据集确定为所述目标数据集。3.根据权利要求2所述的基于联邦学习的数据匹配方法,其特征在于,所述基于所述第一数据集与同一所述第二数据集之间的所述标签匹配度和所述数据内容匹配度,生成综合匹配度,包括:获取所述标签匹配度对应的目标第一权重值、所述数据内容匹配度对应的目标第二权重值以及目标评价分数;分别对所述标签匹配度和所述数据内容匹配度进行归一化处理,生成归一化标签匹配度和归一化数据内容匹配度;基于所述归一化标签匹配度、所述归一化数据内容匹配度、所述目标第一权重值、所述目标第二权重值以及所述目标评价分数,生成所述综合匹配度。4.根据权利要求1
‑
3任一项所述的基于联邦学习的数据匹配方法,其特征在于,所述分别计算第一数据集对应的第一数据标签和多个第二数据集对应的多个第二数据标签之间的相似度,生成多个标签匹配度,包括:对所述第一数据标签和所述第二数据标签进行余弦相似度计算,生成所述第一数据...
【专利技术属性】
技术研发人员:徐生,束柬,
申请(专利权)人:科大讯飞股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。