基于小样本学习的用户圈层挖掘方法、装置、介质及设备制造方法及图纸

技术编号:35554578 阅读:17 留言:0更新日期:2022-11-12 15:35
本发明专利技术公开了一种基于小样本学习的用户圈层挖掘方法、装置、介质及设备,所述方法包括:从网络平台中获取待处理语料集;对待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;对标注语料集进行数据增强处理,根据增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;根据训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。采用本发明专利技术的技术方案无需耗费大量人力成本和时间成本,能够在短时间、低标注量的情况下实现快速挖掘用户圈层。圈层。圈层。

【技术实现步骤摘要】
基于小样本学习的用户圈层挖掘方法、装置、介质及设备


[0001]本专利技术涉及互联网大数据处理
,尤其涉及一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备。

技术介绍

[0002]随着互联网和大数据技术的快速发展,如今的社交网络呈现出显著的移动化、本地化特征,社交网络的圈层作为一种用户的频繁活动范围,有利于分析用户在其所属圈层中的相关信息,因此,对用户所属圈层进行挖掘具有十分重要的意义,成为了企业营销数字化环节不可或缺的部分。
[0003]传统的用户圈层挖掘方案,大多使用的是规则类(例如正则表达式)的方式对人群进行打标,或者,人工大批量标注数据后使用机器学习训练判别模型,最终确定用户圈层。
[0004]但是,随着企业营销数字化转型以及大数据生态与应用的进展,用户圈层也在不断革新,基于传统方案进行圈层构建时,需要耗费大量人力成本调整规则以适应用户圈层的快速变化,或者,需要耗费大量人力标注成本和模型训练时间,均会导致企业无法快速挖掘用户的新圈层而错失商机,因此,开发一种能够支持快速挖掘用户圈层的方案变得十分关键。

技术实现思路

[0005]本专利技术实施例的目的在于,提供一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备,无需耗费大量人力成本和时间成本,能够在短时间、低标注量的情况下实现快速挖掘用户圈层。
[0006]为了实现上述目的,本专利技术实施例提供了一种基于小样本学习的用户圈层挖掘方法,包括:从网络平台中获取待处理语料集;对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;对所述标注语料集进行数据增强处理,获得增强后的标注语料集;根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。
[0007]进一步地,所述从网络平台中获取待处理语料集,具体包括:通过关键词搜索从网络平台中获取第一语料集;通过账号搜索从网络平台中获取第二语料集;根据所述第一语料集和所述第二语料集获得所述待处理语料集。
[0008]进一步地,所述对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,具体包括:对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。
[0009]进一步地,所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括:S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回S22;S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。
[0010]进一步地,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;或/和,将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。
[0011]进一步地,所述方法还包括:当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;则,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。
[0012]进一步地,所述小样本学习模型为基于Soft

Prompt实现的自适应模板模型,且模型底层为预训练语言模型和分类器;则,所述根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型,具体包括:将所述增强后的标注语料集划分为训练集和验证集;设置M个候选分类阈值,基于每一个候选分类阈值,分别根据所述训练集对所述预设的小样本学习模型进行训练,获得M个训练模型,M≥2;
根据所述验证集分别对每一个训练模型进行验证,获得M个验证结果;根据每一个验证结果对应获取每一个训练模型的F1值,获得M个F1值,F1值为精确率和召回率的调和平均值;确定所述M个F1值中的最大F1值,并将所述最大F1值对应的候选分类阈值作为最终分类阈值,将所述最大F1值对应的训练模型作为所述训练后的小样本学习模型。
[0013]进一步地,所述根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称,具体包括:根据所述训练后的小样本学习模型对所述待挖掘语料集进行分类,确定所述待挖掘语料集中的每一条待挖掘语料对应的圈层名称;计算所述用户账号下的每一个圈层名称对应的待挖掘语料的条数与所述待挖掘语料集中的所有待挖掘语料的条数的比值;根据比值大于预设比值阈值的圈层名称确定用户所属的圈层名称。
[0014]进一步地,所述方法还包括:当所述待挖掘语料集进行分类后的分类结果中,存在置信度大于预设置信度阈值的待挖掘语料时,将置信度大于预设置信度阈值的待挖掘语料作为增量训练数据;当所述增量训练数据的数量大于预设数量阈值时,对所述增量训练数据进行数据增强处理,获得增强后的增量训练数据;根据所述增强后的增量训练数据和所述增强后的标注语料集,对所述预设的小样本学习模型进行增量训练,获得增量训练后的小样本学习模型;当所述增量训练后的小样本学习模型对应的F1值大于所述训练后的小样本学习模型对应的F1值时,用所述增量训练后的小样本学习模型替换所述训练后的小样本学习模型。
[0015]为了实现上述目的,本专利技术实施例还提供了一种基于小样本学习的用户圈层挖掘装置,用于实现上述任一项所述的基于小样本学习的用户圈层挖掘方法,所述装置包括:语料集获取模块,用于从网络平台中获取待处理语料集;语料圈层标注模块,用于对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;标注语料增强模块,用于对所述标注语料集进行数据增强处理,获得增强后的标注语料集;模型训练模块,用于根据所述增强后的标注语料集对预设的小样本学习本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的用户圈层挖掘方法,其特征在于,包括:从网络平台中获取待处理语料集;对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集;其中,所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称,每一个圈层名称对应的标注语料的条数不小于预设条数阈值;对所述标注语料集进行数据增强处理,获得增强后的标注语料集;根据所述增强后的标注语料集对预设的小样本学习模型进行训练,获得训练后的小样本学习模型;根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类,获得用户所属的圈层名称。2.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述从网络平台中获取待处理语料集,具体包括:通过关键词搜索从网络平台中获取第一语料集;通过账号搜索从网络平台中获取第二语料集;根据所述第一语料集和所述第二语料集获得所述待处理语料集。3.如权利要求2所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述对所述待处理语料集中的所有待处理语料进行圈层标注,获得标注语料集,具体包括:对所述第一语料集中的所有待处理语料进行逐条标注,确定每一条待处理语料对应的圈层名称;对所述第二语料集中的所有待处理语料进行逐条标注或一键标注,确定每一条待处理语料对应的圈层名称;根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。4.如权利要求3所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集,具体包括:S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理;S22、判断去重后的标注语料的条数是否满足以下条件:每一个圈层名称对应的标注语料的条数不小于预设条数阈值;S23、若不满足,则继续从网络平台中获取新待处理语料集,对所述新待处理语料集中的所有新待处理语料进行圈层标注,获得新标注语料,对所述去重后的标注语料和所述新标注语料进行合并去重处理,并返回S22;S24、若满足,则根据所述去重后的标注语料获得所述标注语料集。5.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:将所述标注语料集中的每一个圈层名称对应的标注语料的X%,由当前语种翻译成第二语种,并由第二语种再翻译成当前语种,获得翻译语料,0<X≤100;或/和,将所述标注语料集中的标注语料两两拼接,并在拼接的两条标注语料对应的圈层名称不相同时,为拼接生成的一条标注语料标注新圈层名称,获得拼接语料;
根据所述标注语料集,并结合所述翻译语料或/和所述拼接语料,获得所述增强后的标注语料集。6.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述方法还包括:当存在历史标注语料集时,对所述历史标注语料集和所述标注语料集进行合并去重处理,获得去重后的标注语料集;则,所述对所述标注语料集进行数据增强处理,获得增强后的标注语料集,具体包括:对所述去重后的标注语料集进行数据增强处理,获得所述增强后的标注语料集。7.如权利要求1所述的基于小样本学习的用户圈层挖掘方法,其特征在于,所述小样本学习模型为基于Soft

Prompt实现的自适应模板模型,且模型底层为预训练语言模型和分类器;则,所述...

【专利技术属性】
技术研发人员:牟昊袁浩斌何宇轩徐亚波李旭日
申请(专利权)人:广州数说故事信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1