内容主题分类方法、装置、电子设备和存储介质制造方法及图纸

技术编号:36919246 阅读:22 留言:0更新日期:2023-03-22 18:43
本申请公开了一种内容主题分类方法、装置、电子设备和存储介质;可以获取待分类内容,并识别所述待分类内容的发布者的历史发布内容对应的主题分布类型;当所述主题分布类型为目标类型时,获取所述发布者对应的属性信息以及所述发布者的历史发布内容的主题信息;基于所述待分类内容的内容信息、以及所述发布者的属性信息和所述历史发布内容的主题信息,预测所述待分类内容属于各个预设主题的概率;根据所述概率,从所述预设主题中确定所述待分类内容的目标主题。本申请当发布者的历史发布内容的主题分布类型为目标类型时,可以结合发布者的属性信息以及历史发布内容的主题信息,对待分类内容的主题进行预测,能够提高内容主题分类的准确度。类的准确度。类的准确度。

【技术实现步骤摘要】
内容主题分类方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,具体涉及一种内容主题分类方法、装置、电子设备和存储介质。

技术介绍

[0002]随着网络信息技术的不断发展,互联网上各种各样的内容信息数量急剧增加,为了从海量内容中分析出用户感兴趣的内容,需要对内容信息进行处理,其中,内容分类是处理较大规模内容信息的关键技术,在信息处理中起着至关重要的作用,内容分类是对内容数据按照一定的分类体系或标准进行主题分类,得到一个或多个对应的内容主题标签。
[0003]目前,传统技术的内容主题分类方法通常只针对内容本身来进行内容的主题分类,但是这样对内容的相关信息利用不够全面,得到的主题分类结果准确度较低。

技术实现思路

[0004]本申请实施例提供一种内容主题分类方法、装置、电子设备和存储介质,可以提高内容主题分类的准确度。
[0005]本申请实施例提供一种内容主题分类方法,包括:
[0006]获取待分类内容,并识别所述待分类内容的发布者的历史发布内容对应的主题分布类型;
[0007]当所述主题分布类型为目标类型时,获取所述发布者对应的属性信息以及所述发布者的历史发布内容的主题信息;
[0008]基于所述待分类内容的内容信息、以及所述发布者的属性信息和所述历史发布内容的主题信息,预测所述待分类内容属于各个预设主题的概率;
[0009]根据所述概率,从所述预设主题中确定所述待分类内容的目标主题。
[0010]相应的,本申请实施例提供一种内容主题分类装置,包括:
[0011]识别单元,用于获取待分类内容,并识别所述待分类内容的发布者的历史发布内容对应的主题分布类型;
[0012]获取单元,用于当所述主题分布类型为目标类型时,获取所述发布者对应的属性信息以及所述发布者的历史发布内容的主题信息;
[0013]预测单元,用于基于所述待分类内容的内容信息、以及所述发布者的属性信息和所述历史发布内容的主题信息,预测所述待分类内容属于各个预设主题的概率;
[0014]确定单元,用于根据所述概率,从所述预设主题中确定所述待分类内容的目标主题。
[0015]可选的,在本申请的一些实施例中,所述预测单元还可以用于当所述主题分布类型为非目标类型时,基于所述待分类内容的内容信息,预测所述待分类内容属于各个预设主题的概率;所述确定单元还可以用于根据所述概率,从所述预设主题中确定所述待分类内容的目标主题。
[0016]可选的,在本申请的一些实施例中,所述识别单元具体可以用于基于所述待分类内容的发布者对应的属性信息和所述发布者的历史发布内容的主题信息,对所述历史发布内容进行主题分布分析,确定所述历史发布内容对应的主题分布类型。
[0017]可选的,在本申请的一些实施例中,所述识别单元可以包括第一融合子单元、第一提取子单元和第一预测子单元,如下:
[0018]所述第一融合子单元,用于将所述待分类内容的发布者对应的属性信息和所述发布者的历史发布内容的主题信息进行融合,得到主题分布信息;
[0019]第一提取子单元,用于对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息;
[0020]第一预测子单元,用于根据所述分布特征信息,预测所述历史发布内容对应的主题分布类型。
[0021]可选的,在本申请的一些实施例中,所述主题分布信息包括至少一个文本单元;
[0022]所述第一提取子单元具体可以用于提取所述主题分布信息中各个文本单元的词级特征信息;基于各个文本单元对应的上下文的文本单元的词级特征信息,对所述各个文本单元的词级特征信息进行处理;将处理后的各个文本单元的词级特征信息进行融合,得到所述主题分布信息的分布特征信息。
[0023]可选的,在本申请的一些实施例中,所述第一提取子单元具体可以用于通过训练后的主题分布识别模型,对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息。
[0024]可选的,在本申请的一些实施例中,该内容主题分类装置还可以包括训练单元,所述训练单元用于对主题分布识别模型进行训练,具体地,所述训练单元用于获取训练数据,所述训练数据包括样本发布者的属性信息、所述样本发布者的样本历史发布内容的主题信息以及所述样本历史发布内容的期望主题分布类型;将所述样本发布者的属性信息和所述样本历史发布内容的主题信息进行融合,得到样本主题分布信息;通过主题分布识别模型,对所述样本主题分布信息进行特征提取,得到所述样本主题分布信息的分布特征信息;根据所述分布特征信息,预测所述样本历史发布内容的实际主题分布类型;根据所述实际主题分布类型和期望主题分布类型,对主题分布识别模型的参数进行调整,得到训练后的主题分布识别模型。
[0025]可选的,在本申请的一些实施例中,所述预测单元可以包括第二融合子单元、第二提取子单元和第二预测子单元,如下:
[0026]所述第二融合子单元,用于将所述待分类内容的内容信息、以及所述发布者的属性信息和所述历史发布内容的主题信息进行融合,得到融合后信息;
[0027]第二提取子单元,用于对所述融合后信息进行特征提取,得到所述融合后信息的特征信息;
[0028]第二预测子单元,用于根据所述特征信息,预测所述待分类内容属于各个预设主题的概率。
[0029]可选的,在本申请的一些实施例中,所述融合后信息包括至少一个文本单元;所述第二提取子单元具体可以用于提取所述融合后信息中的各个文本单元的词级特征信息;基于各个文本单元对应上下文的文本单元的词级特征信息,对所述各个文本单元的词级特征
信息进行处理;将处理后的各个文本单元的词级特征信息进行融合,得到所述融合后信息的特征信息。
[0030]可选的,在本申请的一些实施例中,步骤“提取所述融合后信息中的各个文本单元的词级特征信息”,可以包括:
[0031]获取所述融合后信息中各个文本单元对应的内容向量和类型向量,所述类型向量表征所述文本单元所属的信息类型;
[0032]对各个文本单元在所述融合后信息中的位置信息进行编码,得到各个文本单元对应的位置向量;
[0033]将所述内容向量、所述类型向量以及所述位置向量进行融合,得到所述融合后信息中各个文本单元的词级特征信息。
[0034]本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的内容主题分类方法中的步骤。
[0035]本申请实施例还提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的内容主题分类方法中的步骤。
[0036]此外,本申请实施例还提供一种计算机程序产品,包括计算机程序或指令,该计算机程序或指令被处理器执行时实现本申请实施例提供的内容主题分类方法中的步骤。
[0037]本申请实施例提供了一种内容主题分类方法、装置、电子设本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种内容主题分类方法,其特征在于,包括:获取待分类内容,并识别所述待分类内容的发布者的历史发布内容对应的主题分布类型;当所述主题分布类型为目标类型时,获取所述发布者对应的属性信息以及所述发布者的历史发布内容的主题信息;基于所述待分类内容的内容信息、以及所述发布者的属性信息和所述历史发布内容的主题信息,预测所述待分类内容属于各个预设主题的概率;根据所述概率,从所述预设主题中确定所述待分类内容的目标主题。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:当所述主题分布类型为非目标类型时,基于所述待分类内容的内容信息,预测所述待分类内容属于各个预设主题的概率;根据所述概率,从所述预设主题中确定所述待分类内容的目标主题。3.根据权利要求1所述的方法,其特征在于,所述识别所述待分类内容的发布者的历史发布内容对应的主题分布类型,包括:基于所述待分类内容的发布者对应的属性信息和所述发布者的历史发布内容的主题信息,对所述历史发布内容进行主题分布分析,确定所述历史发布内容对应的主题分布类型。4.根据权利要求3所述的方法,其特征在于,所述基于所述待分类内容的发布者对应的属性信息和所述发布者的历史发布内容的主题信息,对所述历史发布内容进行主题分布分析,确定所述历史发布内容对应的主题分布类型,包括:将所述待分类内容的发布者对应的属性信息和所述发布者的历史发布内容的主题信息进行融合,得到主题分布信息;对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息;根据所述分布特征信息,预测所述历史发布内容对应的主题分布类型。5.根据权利要求4所述的方法,其特征在于,所述主题分布信息包括至少一个文本单元;所述对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息,包括:提取所述主题分布信息中各个文本单元的词级特征信息;基于各个文本单元对应的上下文的文本单元的词级特征信息,对所述各个文本单元的词级特征信息进行处理;将处理后的各个文本单元的词级特征信息进行融合,得到所述主题分布信息的分布特征信息。6.根据权利要求4所述的方法,其特征在于,所述对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息,包括:通过训练后的主题分布识别模型,对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息。7.根据权利要求6所述的方法,其特征在于,所述通过训练后的主题分布识别模型,对所述主题分布信息进行特征提取,得到所述主题分布信息的分布特征信息之前,所述方法
还包括:获取训练数据,所述训练数据包括样本发布者的属性信息、所述样本发布者的样本历史发布内容的主题信息以及所述样本历史发布内容的期望主题分布类型;将所述样本发布者的属性信息和所述样本历史发布内容的主题信息进行融合,得到样本主题分布信息;通过主题分布识别模型,对所述样本主题分布...

【专利技术属性】
技术研发人员:陈楠陈小帅
申请(专利权)人:腾讯科技北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1