基于小样本学习的用户圈层挖掘方法、装置、介质及设备制造方法及图纸

技术编号：35554578 阅读：17 留言：0更新日期：2022-11-12 15:35

本发明专利技术公开了一种基于小样本学习的用户圈层挖掘方法、装置、介质及设备，所述方法包括：从网络平台中获取待处理语料集；对待处理语料集中的所有待处理语料进行圈层标注，获得标注语料集，标注语料集中的每一条标注语料对应标注了至少一个圈层名称，每一个圈层名称对应的标注语料的条数不小于预设条数阈值；对标注语料集进行数据增强处理，根据增强后的标注语料集对预设的小样本学习模型进行训练，获得训练后的小样本学习模型；根据训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类，获得用户所属的圈层名称。采用本发明专利技术的技术方案无需耗费大量人力成本和时间成本，能够在短时间、低标注量的情况下实现快速挖掘用户圈层。圈层。圈层。

全部详细技术资料下载

【技术实现步骤摘要】
基于小样本学习的用户圈层挖掘方法、装置、介质及设备

[0001]本专利技术涉及互联网大数据处理
，尤其涉及一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备。

技术介绍

[0002]随着互联网和大数据技术的快速发展，如今的社交网络呈现出显著的移动化、本地化特征，社交网络的圈层作为一种用户的频繁活动范围，有利于分析用户在其所属圈层中的相关信息，因此，对用户所属圈层进行挖掘具有十分重要的意义，成为了企业营销数字化环节不可或缺的部分。
[0003]传统的用户圈层挖掘方案，大多使用的是规则类（例如正则表达式）的方式对人群进行打标，或者，人工大批量标注数据后使用机器学习训练判别模型，最终确定用户圈层。
[0004]但是，随着企业营销数字化转型以及大数据生态与应用的进展，用户圈层也在不断革新，基于传统方案进行圈层构建时，需要耗费大量人力成本调整规则以适应用户圈层的快速变化，或者，需要耗费大量人力标注成本和模型训练时间，均会导致企业无法快速挖掘用户的新圈层而错失商机，因此，开发一种能够支持快速挖掘用户圈层的方案变得十分关键。

技术实现思路

[0005]本专利技术实施例的目的在于，提供一种基于小样本学习的用户圈层挖掘方法、装置、计算机可读存储介质及终端设备，无需耗费大量人力成本和时间成本，能够在短时间、低标注量的情况下实现快速挖掘用户圈层。
[0006]为了实现上述目的，本专利技术实施例提供了一种基于小样本学习的用户圈层挖掘方法，包括：从网络平台中获取待处理语料集；...

【技术保护点】

【技术特征摘要】
1.一种基于小样本学习的用户圈层挖掘方法，其特征在于，包括：从网络平台中获取待处理语料集；对所述待处理语料集中的所有待处理语料进行圈层标注，获得标注语料集；其中，所述标注语料集中的每一条标注语料对应标注了至少一个圈层名称，每一个圈层名称对应的标注语料的条数不小于预设条数阈值；对所述标注语料集进行数据增强处理，获得增强后的标注语料集；根据所述增强后的标注语料集对预设的小样本学习模型进行训练，获得训练后的小样本学习模型；根据所述训练后的小样本学习模型对用户账号下的待挖掘语料集进行分类，获得用户所属的圈层名称。2.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述从网络平台中获取待处理语料集，具体包括：通过关键词搜索从网络平台中获取第一语料集；通过账号搜索从网络平台中获取第二语料集；根据所述第一语料集和所述第二语料集获得所述待处理语料集。3.如权利要求2所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述对所述待处理语料集中的所有待处理语料进行圈层标注，获得标注语料集，具体包括：对所述第一语料集中的所有待处理语料进行逐条标注，确定每一条待处理语料对应的圈层名称；对所述第二语料集中的所有待处理语料进行逐条标注或一键标注，确定每一条待处理语料对应的圈层名称；根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集。4.如权利要求3所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述根据标注后的第一语料集和标注后的第二语料集获得所述标注语料集，具体包括：S21、对所述标注后的第一语料集和所述标注后的第二语料集中的标注语料进行合并去重处理；S22、判断去重后的标注语料的条数是否满足以下条件：每一个圈层名称对应的标注语料的条数不小于预设条数阈值；S23、若不满足，则继续从网络平台中获取新待处理语料集，对所述新待处理语料集中的所有新待处理语料进行圈层标注，获得新标注语料，对所述去重后的标注语料和所述新标注语料进行合并去重处理，并返回S22；S24、若满足，则根据所述去重后的标注语料获得所述标注语料集。5.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述对所述标注语料集进行数据增强处理，获得增强后的标注语料集，具体包括：将所述标注语料集中的每一个圈层名称对应的标注语料的X%，由当前语种翻译成第二语种，并由第二语种再翻译成当前语种，获得翻译语料，0＜X≤100；或/和，将所述标注语料集中的标注语料两两拼接，并在拼接的两条标注语料对应的圈层名称不相同时，为拼接生成的一条标注语料标注新圈层名称，获得拼接语料；
根据所述标注语料集，并结合所述翻译语料或/和所述拼接语料，获得所述增强后的标注语料集。6.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述方法还包括：当存在历史标注语料集时，对所述历史标注语料集和所述标注语料集进行合并去重处理，获得去重后的标注语料集；则，所述对所述标注语料集进行数据增强处理，获得增强后的标注语料集，具体包括：对所述去重后的标注语料集进行数据增强处理，获得所述增强后的标注语料集。7.如权利要求1所述的基于小样本学习的用户圈层挖掘方法，其特征在于，所述小样本学习模型为基于Soft
‑
Prompt实现的自适应模板模型，且模型底层为预训练语言模型和分类器；则，所述...

【专利技术属性】
技术研发人员：牟昊，袁浩斌，何宇轩，徐亚波，李旭日，
申请(专利权)人：广州数说故事信息科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人