一种内容发布主体的分类方法及装置制造方法及图纸

技术编号:34285553 阅读:17 留言:0更新日期:2022-07-27 08:19
本申请公开了一种内容发布主体的分类方法及装置,其中该方法包括:获取内容发布主体中发布的内容所对应的内容描述信息;对获取到的所述内容描述信息进行分词,得到组成内容描述信息的词语,并将词语转化为预定维度的特征向量;将组成内容描述信息的词语所对应的特征向量中,目标维度的向量进行聚合处理,得到内容描述信息的主题向量;将获取到的主题向量中,目标维度的向量进行归一化处理,得到内容发布主体的主体向量;确定与主体向量匹配的预设主体向量样本,并获取与预设主体向量样本对应的主体类别标签,以对内容发布主体进行分类。本申请提高内容发布主体分类准确性及分类效率,同时降低分类成本。同时降低分类成本。同时降低分类成本。

【技术实现步骤摘要】
一种内容发布主体的分类方法及装置


[0001]本申请涉及内容分类
,具体涉及一种内容发布主体的分类方法及装置。

技术介绍

[0002]内容发布主体即承载用户发布的内容的主体,例如视频号即为用户发布视频内容的内容发布主体。目前,各平台上的内容发布主体数量巨大,对于这些内容发布主体的及时分类非常重要,例如分类后的内容分类主体可以用于训练有监督分类模型,然后使用分类模型对内容发布主体进行自动分类,也可以对内容发布主体进行可靠管理。
[0003]现有技术中,内容发布主体的类别通常由发布于其中的内容所决定,但是,内容发布主体中通常会发布有视频内容,此时大量内容信息为视频帧承载,内容发布主体的分类准确性较低,分类困难。以训练有监督分类模型的方案为例,用于训练有监督分类模型的内容发布主体样本通常需要人工标注内容发布主体的类别,分类成本高昂,且内容发布主体中通常会发布有视频内容,导致内容发布主体的分类准确性较低,影响分类模型的分类准确性。

技术实现思路

[0004]本申请实施例提供一种内容发布主体的分类方法及装置,旨在提高内容发布主体分类准确性及分类效率,同时降低分类成本。
[0005]本申请实施例提供以下技术方案:
[0006]根据本申请的一个实施例,一种内容发布主体的分类方法,其包括:获取内容发布主体中发布的内容所对应的内容描述信息,所述内容描述信息为所述内容的发布用户所标定的;对获取到的所述内容描述信息进行分词,得到组成所述内容描述信息的词语,并将所述词语转化为预定维度的特征向量;将组成所述内容描述信息的词语所对应的所述特征向量中,目标维度的向量进行聚合处理,得到所述内容描述信息的主题向量;将获取到的所述内容描述信息对应的所述主题向量中,目标维度的向量进行归一化处理,得到所述内容发布主体的主体向量;确定与所述主体向量匹配的预设主体向量样本,并获取与所述预设主体向量样本对应的主体类别标签作为所述内容发布主体的类别标签,以对所述内容发布主体进行分类。
[0007]根据本申请的一个实施例,一种内容发布主体的分类模型的训练样本获取方法,所述训练样本用于训练所述分类模型,所述分类模型的训练以内容发布主体中的目标信息作为输入,并以内容发布主体对应的类别标签作为输出;所方法包括:确定目标发布平台中包括的多个内容发布主体;基于前述实施例中的方法,分别获取每个所述内容发布主体对应的类别标签;获取每个所述内容发布主体中的所述目标信息及对应的所述类别标签,作为所述分类模型的正向训练样本。
[0008]根据本申请的一个实施例,一种内容发布主体的分类装置,其包括:第一获取模块,用于获取内容发布主体中发布的内容所对应的内容描述信息,所述内容描述信息为所
述内容的发布用户所标定的;转化模块,用于对获取到的所述内容描述信息进行分词,得到组成所述内容描述信息的词语,并将所述词语转化为预定维度的特征向量;聚合模块,用于将组成所述内容描述信息的词语所对应的所述特征向量中,目标维度的向量进行聚合处理,得到所述内容描述信息的主题向量;归一化模块,用于将获取到的所述内容描述信息对应的所述主题向量中,目标维度的向量进行归一化处理,得到所述内容发布主体的主体向量;分类模块,用于确定与所述主体向量匹配的预设主体向量样本,并获取与所述预设主体向量样本对应的主体类别标签作为所述内容发布主体的类别标签,以对所述内容发布主体进行分类。
[0009]在本申请的一些实施例中,所述内容描述信息为带有目标符号的信息标签;所述第一获取模块包括:标签获取单元,用于获取所述内容发布主体中发布的内容所对应的所述信息标签,得到所述内容发布主体中包含的所有所述信息标签;第一频率计算单元,用于计算每个所述信息标签在所述内容发布主体包含的信息标签中出现的第一频率;分值确定单元,用于根据每个所述信息标签对应的所述第一频率,确定每个所述信息标签的重要性分值;筛选单元,用于将所述内容发布主体中重要性分值最高的多个所述信息标签,作为获取到的所述内容描述信息。
[0010]在本申请的一些实施例中,所述内容发布主体来源于目标发布平台,所述目标发布平台中还包括其它内容发布主体;所述分值确定单元,包括:第二频率计算子单元,用于计算每个所述信息标签在所述目标发布平台中的所述其它内容发布主体中出现的第二频率;分值确定子单元,用于根据所述第一频率及所述第二频率计算每个所述信息标签的重要性分值,其中,所述重要性分值与所述第一频率成正比,所述重要性分值与所述第二频率成反比。
[0011]在本申请的一些实施例中,所述第二频率计算子单元用于:获取所述目标发布平台中包括的所有内容发布主体的第一个数;从所述目标发布平台中包括的所有内容发布主体中,依次确定包含有所述信息标签的内容发布主体的第二个数,得到对应于每个所述信息标签的第二个数;将所述第一个数分别除以对应于每个所述信息标签的第二个数得到的商取对数,作为对应于每个所述信息标签的第二频率;所述分值确定子单元用于:计算每个所述信息标签对应的所述第一频率与所述第二频率的乘积,作为每个所述信息标签的重要性分值。
[0012]在本申请的一些实施例中,所述第一频率计算单元包括:相似度计算子单元,用于计算所述内容发布主体中包含的信息标签之间的相似度;第一频率计算单元,用于通过将相似度大于预定阈值的信息标签确定为相同的信息标签,确定每个信息标签在内容发布主体包含的信息标签中出现的次数,计算第一频率。
[0013]在本申请的一些实施例中,所述聚合模块包括:累加单元,用于将组成所述内容描述信息的词语所对应的所述特征向量中,相同维度的特征向量进行累加,得到所述内容描述信息的主题向量;所述归一化模块包括:平均化单元,用于将获取到的所述内容描述信息对应的所述主题向量中,相同维度的特征向量取平均值,得到所述内容发布主体的主体向量。
[0014]在本申请的一些实施例中,所述转化模块包括:分词单元,用于使用目标分词器对获取到的所述内容描述信息进行分词,得到组成所述内容描述信息的词语;向量转化单元,
用于将所述词语输入预先训练好的向量转化模型,得到所述向量转化模型输出的所述词语对应的预定维度的特征向量,其中,训练所述向量转化模型的词语样本通过所述目标分词器对内容描述信息样本进行切词得到。
[0015]在本申请的一些实施例中,所述第一获取模块包括:内容类型获取单元,获取所述内容发布主体中发布的内容所对应内容类型;比例确定单元,用于确定所述内容类型中目标类型内容所占比例,所述目标类型内容为除文本类型内容之外的其它类型内容;确定获取单元,用于当所述目标类型内容所占比例高于预定阈值时,获取所述内容发布主体中发布的内容所对应的内容描述信息。
[0016]内容发布主体中的内容中视频内容所占比例高于预定阈值。
[0017]根据本申请的一个实施例,一种内容发布主体的分类模型的训练样本获取装置,所述训练样本用于训练所述分类模型,所述分类模型的训练以内容发布主体中的目标信息作为输入,并以内容发布主体对应的类别标签作为输出;所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容发布主体的分类方法,其特征在于,包括:获取内容发布主体中发布的内容所对应的内容描述信息,所述内容描述信息为所述内容的发布用户所标定的;对获取到的所述内容描述信息进行分词,得到组成所述内容描述信息的词语,并将所述词语转化为预定维度的特征向量;将组成所述内容描述信息的词语所对应的所述特征向量中,目标维度的向量进行聚合处理,得到所述内容描述信息的主题向量;将获取到的所述内容描述信息对应的所述主题向量中,目标维度的向量进行归一化处理,得到所述内容发布主体的主体向量;确定与所述主体向量匹配的预设主体向量样本,并获取与所述预设主体向量样本对应的主体类别标签作为所述内容发布主体的类别标签,以对所述内容发布主体进行分类。2.根据权利要求1所述的方法,其特征在于,所述内容描述信息为带有目标符号的信息标签;所述获取内容发布主体中发布的内容所对应的内容描述信息,包括:获取所述内容发布主体中发布的内容所对应的所述信息标签,得到所述内容发布主体中包含的所有所述信息标签;计算每个所述信息标签在所述内容发布主体包含的信息标签中出现的第一频率;根据每个所述信息标签对应的所述第一频率,确定每个所述信息标签的重要性分值;将所述内容发布主体中重要性分值最高的多个所述信息标签,作为获取到的所述内容描述信息。3.根据权利要求2所述的方法,其特征在于,所述内容发布主体来源于目标发布平台,所述目标发布平台中还包括其它内容发布主体;所述根据每个所述信息标签对应的所述第一频率,确定每个所述信息标签的重要性分值,包括:计算每个所述信息标签在所述目标发布平台中的所述其它内容发布主体中出现的第二频率;根据所述第一频率及所述第二频率计算每个所述信息标签的重要性分值,其中,所述重要性分值与所述第一频率成正比,所述重要性分值与所述第二频率成反比。4.根据权利要求3所述的方法,其特征在于,所述第一频率为词频,所述计算每个所述信息标签在所述目标发布平台中的所述其它内容发布主体中出现的所述第二频率,包括:获取所述目标发布平台中包括的所有内容发布主体的第一个数;从所述目标发布平台中包括的所有内容发布主体中,依次确定包含有所述信息标签的内容发布主体的第二个数,得到对应于每个所述信息标签的第二个数;将所述第一个数分别除以对应于每个所述信息标签的第二个数得到的商取对数,作为对应于每个所述信息标签的第二频率;所述根据所述第一频率及所述第二频率计算每个所述信息标签的重要性分值,包括:计算每个所述信息标签对应的所述第一频率与所述第二频率的乘积,作为每个所述信息标签的重要性分值。5.根据权利要求2所述的方法,其特征在于,所述计算每个所述信息标签在所述内容发布主体包含的信息标签中出现的第一频率,包括:
计算所述内容发布主体中包含的信息标签之间的相似度;通过将相似度大于预定阈值的信息标签确定为相同的信息标签,确定每个信息标签在内容发布主体包含的信息标签中出现的次数,计算所述...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1