多标签识别方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33134823 阅读:21 留言:0更新日期:2022-04-17 00:58
本申请涉及人工智能技术领域,本申请实施例提供了一种多标签识别方法、装置、电子设备及存储介质。该方法包括:对用户基础数据进行归一化处理,得到用户基础特征;通过图卷积模型对用户行为数据进行特征提取,得到行为特征矩阵;对用户评论数据进行分词处理,得到评论文本词段向量;将评论文本词段向量输入至对比学习模型以使评论文本词段向量与参考词嵌入矩阵进行矩阵相乘,得到评论词嵌入向量;对用户基础特征、行为特征矩阵及评论词嵌入向量进行融合处理得到标准画像特征向量;通过标签识别模型对标准画像特征向量进行标签识别处理,得到画像标签的概率值;根据概率值,得到目标画像标签。本申请实施例提高了用户画像标签的识别准确性。识别准确性。识别准确性。

【技术实现步骤摘要】
多标签识别方法、装置、电子设备及存储介质


[0001]本申请涉及人工智能
,尤其涉及一种多标签识别方法、装置、电子设备及存储介质。

技术介绍

[0002]目前,在对互联网用户进行画像标签时,常常采用人工标注或者机器学习的方式来对画像标签进行识别和分类。当采用人工标注方式时,往往需要经过长时间的标记处理,且出错率较高,影响识别准确性;而当采用机器学习的方式对多标签画像进行识别时,往往需要针对不同的标签类别,分别训练分类器,往往需要花费较多的时间进行模型训练,影响识别效率。因此,如何提供一种多标签识别方法,能够提高用户画像标签的识别准确性及识别效率,成为了亟待解决的技术问题。

技术实现思路

[0003]本申请实施例的主要目的在于提出一种多标签识别方法、装置、电子设备及存储介质,旨在提高用户画像标签的识别准确性及识别效率。
[0004]为实现上述目的,本申请实施例的第一方面提出了一种多标签识别方法,所述方法包括:
[0005]获取原始数据,其中,所述原始数据包括用户基础数据、用户行为数据以及用户评论数据;
[0006]对所述用户基础数据进行归一化处理,得到用户基础特征;
[0007]通过预先训练的图卷积模型对所述用户行为数据进行特征提取,得到行为特征矩阵;
[0008]对所述用户评论数据进行分词处理,得到评论文本词段向量;
[0009]将所述评论文本词段向量输入至预先训练的对比学习模型中,以使所述评论文本词段向量与所述对比学习模型中的参考词嵌入矩阵进行矩阵相乘,得到评论词嵌入向量;
[0010]对所述用户基础特征、所述行为特征矩阵以及所述评论词嵌入向量进行融合处理,得到标准画像特征向量;
[0011]通过预先训练的标签识别模型对所述标准画像特征向量进行标签识别处理,得到每一预设画像标签的概率值;
[0012]根据所述概率值与预设概率阈值的大小关系,得到目标画像标签。
[0013]在一些实施例,所述通过预先训练的图卷积模型对所述用户行为数据进行特征提取,得到行为特征矩阵的步骤,包括:
[0014]将所述用户行为数据映射到预设的向量空间,得到用户行为特征向量;
[0015]根据预设的课程类型和所述用户行为特征向量,构建行为特征图;
[0016]对所述行为特征图进行图卷积处理,得到行为度矩阵和行为邻接矩阵;
[0017]对所述行为度矩阵和所述行为矩阵进行做差处理,得到行为特征矩阵。
[0018]在一些实施例,所述对所述用户评论数据进行分词处理,得到评论文本词段向量的步骤,包括:
[0019]通过预设的分词器对所述用户评论数据进行分词处理,得到评论文本词段;
[0020]对所述评论文本词段进行编码处理,得到评论文本词段向量。
[0021]在一些实施例,所述将所述评论文本词段向量输入至预先训练的对比学习模型中,以使所述评论文本词段向量与所述对比学习模型中的参考词嵌入矩阵进行矩阵相乘,得到评论词嵌入向量的步骤,包括:
[0022]将所述评论文本词段向量输入到对比学习模型中,以使所述评论文本词段向量与参考词嵌入矩阵进行矩阵相乘,得到多个基本词嵌入向量;
[0023]对所述基本词嵌入向量进行映射处理,得到评论词嵌入向量。
[0024]在一些实施例,所述通过预先训练的标签识别模型对所述标准画像特征向量进行标签识别处理,得到每一预设画像标签的概率值的步骤,包括:
[0025]根据预设的标签维度对所述标准画像特征向量进行重构处理,得到标签特征向量;
[0026]利用预设函数对所述标签特征向量进行识别处理,得到每一预设画像标签的概率值。
[0027]在一些实施例,所述根据所述概率值与预设概率阈值的大小关系,得到目标画像标签的步骤,包括:
[0028]将所述概率值大于或者等于所述预设概率阈值的画像标签纳入同一集合,得到候选画像标签集;
[0029]对所述候选画像标签集进行筛选处理,得到所述目标画像标签。
[0030]在一些实施例,在所述通过预先训练的标签识别模型对所述标准画像特征向量进行标签识别处理,得到每一预设画像标签的概率值的步骤之前,所述方法还包括预先训练所述标签识别模型,具体包括:
[0031]获取标注用户数据;
[0032]对所述标注用户数据进行特征提取,得到样本特征向量;
[0033]将所述样本特征向量输入到标签识别模型中;
[0034]通过所述标签识别模型的损失函数计算出每一画像标签类别的样本概率预测值;
[0035]根据所述样本概率预测值对所述标签识别模型的损失函数进行优化,以更新所述标签识别模型。
[0036]为实现上述目的,本申请实施例的第二方面提出了一种多标签识别装置,所述装置包括:
[0037]数据获取模块,用于获取原始数据,其中,所述原始数据包括用户基础数据、用户行为数据以及用户评论数据;
[0038]归一化模块,用于对所述用户基础数据进行归一化处理,得到用户基础特征;
[0039]特征提取模块,用于通过预先训练的图卷积模型对所述用户行为数据进行特征提取,得到行为特征矩阵;
[0040]分词模块,用于对所述用户评论数据进行分词处理,得到评论文本词段向量;
[0041]对比学习模块,用于将所述评论文本词段向量输入至预先训练的对比学习模型
中,以使所述评论文本词段向量与所述对比学习模型中的参考词嵌入矩阵进行矩阵相乘,得到评论词嵌入向量;
[0042]融合模块,用于对所述用户基础特征、所述行为特征矩阵以及所述评论词嵌入向量进行融合处理,得到标准画像特征向量;
[0043]标签识别模块,用于通过预先训练的标签识别模型对所述标准画像特征向量进行标签识别处理,得到每一预设画像标签的概率值;
[0044]比较模块,用于根据所述概率值与预设概率阈值的大小关系,得到目标画像标签。
[0045]为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器、处理器、存储在所述存储器上并可在所述处理器上运行的程序以及用于实现所述处理器和所述存储器之间的连接通信的数据总线,所述程序被所述处理器执行时实现上述第一方面所述的方法。
[0046]为实现上述目的,本申请实施例的第四方面提出了一种存储介质,所述存储介质为计算机可读存储介质,用于计算机可读存储,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现上述第一方面所述的方法。
[0047]本申请提出的多标签识别方法、装置、电子设备及存储介质,其通过获取原始数据,其中,原始数据包括用户基础数据、用户行为数据以及用户评论数据。进而,对用户基础数据进行归一化处理,得到用户基础特征;通过预先训练的图卷积模型对用户行为数据进行特征提取,得到行为特征矩阵;对用户评论数据进行分词处理,得到评论文本词段向量,并将评本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种多标签识别方法,其特征在于,所述方法包括:获取原始数据,其中,所述原始数据包括用户基础数据、用户行为数据以及用户评论数据;对所述用户基础数据进行归一化处理,得到用户基础特征;通过预先训练的图卷积模型对所述用户行为数据进行特征提取,得到行为特征矩阵;对所述用户评论数据进行分词处理,得到评论文本词段向量;将所述评论文本词段向量输入至预先训练的对比学习模型中,以使所述评论文本词段向量与所述对比学习模型中的参考词嵌入矩阵进行矩阵相乘,得到评论词嵌入向量;对所述用户基础特征、所述行为特征矩阵以及所述评论词嵌入向量进行融合处理,得到标准画像特征向量;通过预先训练的标签识别模型对所述标准画像特征向量进行标签识别处理,得到每一预设画像标签的概率值;根据所述概率值与预设概率阈值的大小关系,得到目标画像标签。2.根据权利要求1所述的多标签识别方法,其特征在于,所述通过预先训练的图卷积模型对所述用户行为数据进行特征提取,得到行为特征矩阵的步骤,包括:将所述用户行为数据映射到预设的向量空间,得到用户行为特征向量;根据预设的课程类型和所述用户行为特征向量,构建行为特征图;对所述行为特征图进行图卷积处理,得到行为度矩阵和行为邻接矩阵;对所述行为度矩阵和所述行为矩阵进行做差处理,得到行为特征矩阵。3.根据权利要求1所述的多标签识别方法,其特征在于,所述对所述用户评论数据进行分词处理,得到评论文本词段向量的步骤,包括:通过预设的分词器对所述用户评论数据进行分词处理,得到评论文本词段;对所述评论文本词段进行编码处理,得到评论文本词段向量。4.根据权利要求1所述的多标签识别方法,其特征在于,所述将所述评论文本词段向量输入至预先训练的对比学习模型中,以使所述评论文本词段向量与所述对比学习模型中的参考词嵌入矩阵进行矩阵相乘,得到评论词嵌入向量的步骤,包括:将所述评论文本词段向量输入到对比学习模型中,以使所述评论文本词段向量与参考词嵌入矩阵进行矩阵相乘,得到多个基本词嵌入向量;对所述基本词嵌入向量进行映射处理,得到评论词嵌入向量。5.根据权利要求1所述的多标签识别方法,其特征在于,所述通过预先训练的标签识别模型对所述标准画像特征向量进行标签识别处理,得到每一预设画像标签的概率值的步骤,包括:根据预设的标签维度对所述标准画像特征向量进行重构处理,得到标签特征向量;利用预设函数对所述标签特征向量进行识别处理,得到每一预设画像标签的概率值。6.根据权利要求1所述的多...

【专利技术属性】
技术研发人员:舒畅陈又新
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1