【技术实现步骤摘要】
标签描述信息的生成方法、装置、电子设备及存储介质
[0001]本申请涉及数据处理
,特别涉及一种标签描述信息的生成方法、装置、电子设备及存储介质。
技术介绍
[0002]在个性化文章推荐中,标签是信息流文章的内容理解的重要维度。通常每篇信息流文章在文章内容理解加工流程中都会被打上至少一个标签,用于后续在基于标签的召回,同时也是作为粗排、精排模型中的一路文章特征。一般而言,业界通用的都是如LDA或者BERT等方法构建多维度主题模型,多维度主题模型可以预测文章在给定的多个维度的标签上的概率分布,从而每篇文章会被打上至少一个标签。而标签是无文本语义理解的形式,目前标签的语义信息仍然需要通过人工标注,这不仅非常耗费人力,并且效果较差。
技术实现思路
[0003]为了解决现有技术生成标签描述信息存在耗费人力和效果差的问题,本申请提供了一种标签描述信息的生成方法、装置、电子设备及存储介质:
[0004]根据本申请的第一方面,提供了一种标签描述信息的生成方法,包括:
[0005]获取待描述标签对应的对 ...
【技术保护点】
【技术特征摘要】
1.一种标签描述信息的生成方法,其特征在于,包括:获取待描述标签对应的对象集合和所述对象集合中各对象关于所述待描述标签的关联程度值;所述对象集合包括多个不同的对象;所述各对象均通过所述待描述标签进行表征;所述待描述标签为预设字符形式;基于所述关联程度值,对所述对象集合中各对象进行排序,得到排序结果;将所述排序结果中前预设数量个对象的标题进行拼接处理,得到拼接后的标题;根据已训练的描述信息生成模型,对所述拼接后的标题进行语义理解,得到所述待描述标签对应的描述信息;所述描述信息包括所述待描述标签的中文语义信息。2.根据权利要求1所述的标签描述信息的生成方法,其特征在于,所述描述信息生成模型的生成方式,包括:获取预训练好的语言模型;获取训练标签对应的训练对象集合和所述训练对象集合中各训练对象关于所述训练标签的关联程度值;所述训练对象集合包括多个不同的训练对象;所述训练对象集合中各训练对象均通过所述训练标签进行表征;所述训练标签为预设字符形式;基于所述各训练对象关于所述训练标签的关联程度值,对所述各训练对象进行排序,得到排序结果;将所述排序结果中前预设数量个训练对象的标题进行拼接处理,得到拼接后的训练标题;根据获取的所述训练标签对应的目标描述信息和所述训练标题,对所述预训练好的语言模型进行微调训练,在达到预设的微调结束条件时,得到所述描述信息生成模型。3.根据权利要求2所述的标签描述信息的生成方法,其特征在于,所述根据获取的所述训练标签对应的目标描述信息和所述训练标题,对所述预训练好的语言模型进行微调训练,在达到预设的微调结束条件时,得到所述描述信息生成模型,包括:将所述训练标题输入所述预训练好的语言模型,得到预测描述信息;根据所述目标描述信息和所述预测描述信息确定损失值;基于所述损失值调整所述预训练好的语言模型的模型参数进行训练,在达到所述预设的微调结束条件时,得到所述描述信息生成模型。4.根据权利要求1所述的标签描述信息的生成方法,其特征在于,所述描述信息生成模型的生成方式,包括:获取预训练好的语言模型;获取训练标签对应的训练对象集合和所述对象集合和所述训练对象集合中各训练对象关于所述训练标签的关联程度值;所述训练对象集合包括多个不同的训练对象;所述训练对象集合中各对象均通过所述训练标签进行表征;所述训练标签为预设字符形式;基于所述各训练对象关于所述训练标签的关联程度值,对所述各训练对象进行排序,得到排序结果;将所述排序结果中前预设数量个训练对象的标题进行拼接处理,得到拼接后的训练标题;根据预设特征提取算法对所述训练标题进行特征提取,得到所述训练标题的特征信息;所述特征信息包括分类信息和/或关键词信息;
根据获取的所述训练标签对应的目标描述信息、所述训练标题和所述特征信息,对所述预训练好的语言模型进行微调训练,在达到预设的微调结束条件...
【专利技术属性】
技术研发人员:邓文超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。