零样本条件下基于逆向匹配的画像映射方法、装置和介质制造方法及图纸

技术编号:34327310 阅读:27 留言:0更新日期:2022-07-31 01:23
本发明专利技术涉及一种零样本条件下基于逆向匹配的画像映射方法,包括在数据特征标签和画像标签两个不同体系间建构双相关文本语料库,使用逆向匹配对语料库进行筛选修正;通过人工标注构建分类语料库,并训练模型建立画像体系间的映射关系;采用基于持续响应衰减的更新机制,并结合标签历史状态对时序变化的画像相关更新数据进行修正。本方法从扩展数据的角度出发,采用基于逆向匹配的文本库构建方法,引入与原始标签相关的外部文本数据扩展并增强标签的语义表达,再引入与用户画像相关的外部数据进行标注建立扩展标签和标注数据之间的联系,从而挖掘出原始特征标签隐含的丰富含义,达到从少量标签序列中计算目标画像的目的。达到从少量标签序列中计算目标画像的目的。达到从少量标签序列中计算目标画像的目的。

【技术实现步骤摘要】
零样本条件下基于逆向匹配的画像映射方法、装置和介质


[0001]本专利技术涉及用户画像领域,特别涉及零样本条件下基于逆向匹配的画像映射方法、装置和介质。

技术介绍

[0002]随着互联网的飞速发展,网络数据呈现爆炸式增长,合理地对网络大规模数据进行批量、准确、可靠的分类、画像描述、群组分析有助于提升网络舆情和访问态势分析等技术的研究发展水平。近年来,自然语言处理技术成为解决网络信息增速快、复杂性高与人工标注低效率、不稳定之间矛盾的主要手段之一,尤其是针对海量网络数据,使用基于自然语言处理的画像技术可以更加高效、快速、精细化的分析日志数据,提升不同场景下的分析处置效率。
[0003]但是,随着信息安全的不断发展与数据安全、隐私保护相关领域规范的不断完善,在包含特殊信息、需脱敏数据、隐私数据等数据保护场景的画像任务中取得完整的样本数据的难度在日益提升,因此,在仅有少量与访问内容相关的特征标签却没有任何原始文本数据的零样本条件下,通常的画像技术所依赖的训练数据无法获取,后续特征工程也就难以为分类器提供有效、可靠的分类特征,这对现有的用户画像任本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种零样本条件下基于逆向匹配的画像映射方法,其特征在于,所述方法包括:S1、根据目标画像体系标签搜集外部文本知识,构建文本语料库,采用无监督的方式扩充已知特征标签以增加得到的文本语料库中特征标签的命中率,得到扩展特征词典;S2、基于所述扩展特征词典,对所述文本语料库中的样本进行筛选,筛去不包含所述扩展特征词典中特征的样本,逆向构建已知特征标签

目标画像体系双相关的语料库,对所述已知特征标签

目标画像体系双相关的语料库进行人工数据标注,得到训练集;S3、基于所述扩展特征词典,将所述训练集转化为样本的特征表示,建立所述特征标签与所述训练集中的训练文本的映射关系,以所述已知特征标签

目标画像体系双相关的语料库中的标注样本为中间媒介,训练从所述特征标签到目标画像标签的分类器,得到映射模型;S4、将利用所述分类器对从所述特征标签到目标画像标签进行分类的分类结果与历史分类状态相结合,得到所述已知特征标签到所述目标画像标签的映射。2.如权利要求1所述的方法,其特征在于,所述S1中具体包括:对网页信息特征标签集合中的特征标签进行分词,得到特征词典的种子集;使用预处理后的图像建立图像库,利用互联网文本信息无监督预训练得到词向量模型;将所述特征词典种子集中的词语依次输入所述词向量模型中,得到所述特征词典种子集中的词语的近义词,将所述近义词加入所述特征词典,得到所述扩展特征词典。3.如权利要求2所述的方法,其特征在于,所述S2中具体包括:根据目标IP画像体系中的IP画像标签,搜集与所述IP画像标签相关的主流网站及应用程序APP;利用爬虫工具爬取所述主流网站和所述应用程序APP的非结构化文本信息,构建目标画像域的文本语料库;根据所述扩展特征词典,使用AC自动机对所述文本语料库进行筛选。4.如权利要求3所述的方法,其特征在于,所述S3中具体包括:人工对所述已知特征标签

目标画像体系双相关的语料库进行标注,得到训练集;根据所述扩展特征词典生成特征标签的向量表示;使用监督分类模型对每个所述IP画像标签进行映射建模。5.如权利要求4所述的方法,其特征在于,所述S4中具体包括:基于网页信息特征标签集合中的特征标签生成向量,使用所述映射模型,对当前时段更新的所述目标IP画像体系中的IP画像标签计算IP画像;根据当前时段计算得到的所述IP画像和前一时刻的综合历史状态,计算当前时刻用户的最终的综合分组归属程度预...

【专利技术属性】
技术研发人员:任博雅吕远李婧蕾佟玲玲井雅琪徐雅静段运强孙旷怡余翠玲
申请(专利权)人:国家计算机网络与信息安全管理中心
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1