【技术实现步骤摘要】
一种标题生成方法、装置、终端及介质
[0001]本申请涉及互联网
,具体涉及人工智能
,尤其涉及一种标题生成方法、一种标题生成装置、一种终端及一种计算机存储介质。
技术介绍
[0002]随着互联网资讯平台的发展,用户可以在各种在线资讯平台阅读相关的文章,例如,用户可以在医疗咨询平台阅读医疗科普类文章。当一篇文章编写完毕,如何给其写一个合适的标题对很多作者来说是一个较大的挑战。由于很多作者往往不了解互联网的资讯传播方式,其手工给出的标题一般会偏向平铺直叙或者过于专业,学术化,导致上传到资讯平台后,不能够有效吸引用户的关注,进而得到的点击量较少。
[0003]为了解决这一问题,目前生成标题的方式,除了将给文章打标题这类工作交给既懂相关领域(例如医疗领域)又懂互联网的行业编辑人员人工撰写以外,更偏向于参考自动标题生成领域,由资讯平台事先收集平台上已有的相关领域的资讯标题作为训练语料,构建相关领域的自动标题生成模型,后续基于该标题生成模型自动为文章打标题。但是,由于当前资讯平台使用标题党骗取用户点击阅读的行为泛滥 ...
【技术保护点】
【技术特征摘要】
1.一种标题生成方法,其特征在于,包括:获取待生成标题的目标文本;从所述目标文本对应的正文内容中提取正文关键词,得到包括所述正文关键词的正文关键词集合;根据所述正文关键词集合,调用目标标题生成模型对所述目标文本进行标题预测,得到所述目标文本的预测标题;其中,所述目标标题生成模型是对N个子模型进行联合训练得到的,所述预测标题是指根据所述目标标题生成模型生成的类别、以及与所述正文关键词集合之间的相似度均满足标题生成条件的候选标题,所述N为大于1的整数;输出所述目标文本的预测标题。2.如权利要求1所述的方法,其特征在于,所述根据所述正文关键词集合,调用目标标题生成模型对所述目标文本进行标题预测,得到所述目标文本的预测标题之前,所述方法还包括:从语料库中获取指定数据集,所述指定数据集包括所述N个子模型中各个子模型各自对应的子数据集;通过所述各个子模型各自对应的子数据集对所述各个子模型进行联合训练,得到达到优化目标的目标标题生成模型,所述优化目标为所述目标标题生成模型的总损失函数值最小。3.如权利要求1或2所述的方法,其特征在于,所述N个子模型包括用于生成候选标题的语言模型、用于确定所述候选标题的类别的标题类别识别模型和用于确定所述候选标题与所述正文关键词集合之间相似度的标题正文相似度模型。4.如权利要求3所述的方法,其特征在于,所述N个子模型中各个子模型各自对应的子数据集包括用于训练所述语言模型的第一数据集、用于训练所述标题类别识别模型的第二数据集和用于训练所述标题正文识别模型的第三数据集;所述第一数据集包括通过标题样本和所述标题样本对应的标题关键词构建的句子,所述第二数据集包括标题样本和所述标题样本的样本标签,所述第三数据集包括通过标题样本和所述标题样本对应文本样本的正文关键词集合构成的句子对,以及所述句子对的相似度标签;所述样本标签用于指示所述标题样本的类别,所述类别包括标题党类和非标题党类;所述相似度标签用于指示所述句子对中所述标题样本与所述正文关键词集合之间的相似度。5.如权利要求4所述的方法,其特征在于,所述目标标题生成模型的总损失函数值为所述目标标题生成模型中所述语言模型的掩码损失函数、所述标题类别识别模型中分类器的交叉熵损失函数和所述标题正文相似度模型的损失函数进行线性加权求和得到的。6.如权利要求5所述的方法,其特征在于,所述通过所述各个子模型各自对应的子数据集对所述各个子模型进行联合训练,得到达到优化目标的目标标题生成模型,包括:通过所述第一数据集对所述语言模型进行训练,直至所述语言模型的掩码损失函数值最小;通过所述第二数据集对所述标题类别识别模型进行训练,直至所述标题类别识别模型中分类器的交叉熵损失函数值...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。