【技术实现步骤摘要】
文章标题生成方法、模型的训练方法、装置和电子设备
本申请涉及文本处理
,具体涉及一种文章标题生成方法、模型的训练方法、装置和电子设备。
技术介绍
随着互联网专业资讯平台的发展,很多用户会在各种在线专业资讯平台阅读专业科普文章。在线专业资讯平台上公布的科普文章通常是相关行业内的专家团队创作的专业科普文章,具有较强的专业性和权威性。由于相关行业内的专家不一定了解互联网的资讯传播方式,因此行业专家为其科普文章拟定的标题往往偏于专业化和学术化,容易被普通用户忽略。为了使这些科普文章能够吸引更多普通用户的关注,从而更广泛地提高普通用户的相关专业知识,更有效地进行科普,在行业专家拟出初始文章标题后,会由精通互联网的资讯传播方式的编辑人员对初始文章标题进行编辑。在编辑人员与行业专家多次沟通后,才最终确定用户在专业资讯平台上看到的科普文章标题。上述科普文章标题的生成方式存在标题生成时间长,生成效率低下的问题。如何有效提高标题生成的效率,是一个亟待解决的问题。
技术实现思路
为解决现有存在的技术问题, ...
【技术保护点】
1.一种文章标题生成方法,其特征在于,包括:/n从获取的文章中提取关键词;/n对所述关键词进行编码,得到所述关键词的词向量编码;/n将所述关键词的词向量编码输入已训练的标题生成模型,得到所述文章的标题;所述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,所述分类模型用于确定所述标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。/n
【技术特征摘要】
1.一种文章标题生成方法,其特征在于,包括:
从获取的文章中提取关键词;
对所述关键词进行编码,得到所述关键词的词向量编码;
将所述关键词的词向量编码输入已训练的标题生成模型,得到所述文章的标题;所述标题生成模型是采用训练样本数据并以分类模型进行辅助训练得到的,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,所述分类模型用于确定所述标题生成模型输出的拟定标题的领域为指定领域的概率,且标题生成模型和分类模型的联合损失收敛至预设的目标条件时获得已训练的标题生成模型。
2.一种标题生成模型的训练方法,其特征在于,采用训练样本数据并以分类模型作为辅助对标题生成模型进行多次训练,获得权利要求1中的标题生成模型,其中,所述训练包括如下步骤:
获得训练样本数据,所述训练样本数据包括指定领域的文章标题和非指定领域的文章标题,每个训练样本数据均标注有文章标题的领域为指定领域的概率,其中,指定领域的文章标题标注的概率高于第一概率阈值,非指定领域的文章标题标注的概率低于第二概率阈值,所述第一概率阈值高于所述第二概率阈值;
分别从训练样本数据的各个文章标题的分词中选取关键分词,并根据选取的关键分词生成包括各个文章标题中关键分词的训练语料;
将训练语料中每个文章标题中关键分词的词向量编码输入待训练的标题生成模型,得到训练语料中每个文章标题中关键分词对应的拟定标题,并确定所述待训练的标题生成模型针对训练样本数据的第一损失值;
分别将训练语料中每个文章标题中关键分词对应的拟定标题输入分类模型,得到每个文章标题中关键分词对应的拟定标题的分类结果,所述分类结果为标识拟定标题的领域是指定领域的概率,根据各个拟定标题的分类结果与文章标题标注的概率,确定第二损失值;
根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值;
确定所述联合损失值是否收敛至预设的目标值,如果是,则结束训练得到已训练的标题生成模型,否则根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练。
3.根据权利要求2所述的训练方法,其特征在于,所述从训练样本数据的各个文章标题的分词中选取关键分词,包括:
对训练样本数据中的标题样本及标题样本对应的正文进行分词;
根据标题样本的各个分词在标题样本及标题样本对应的正文中的词频,确定标题样本的各个分词对应的权重参数;
将标题样本的各个分词中,权重参数最大的分词作为关键分词。
4.根据权利要求2所述的训练方法,其特征在于,所述根据第一损失值和第二损失值,确定标题生成模型和分类模型的联合损失值,包括:
将第一损失值和第二损失值的加权和,作为标题生成模型和分类模型的联合损失值。
5.根据权利要求4所述的训练方法,其特征在于,所述根据确定的联合损失值对待训练的标题生成模型的参数进行调整并进行再次训练,包括:
根据联合损失值对所述待训练的标题生成模型和所述分类模型的参数进行调整,直至联合损失值收敛至预设的目标值为止,将得到的标题生成模型作为已训练的标题生成模型。<...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。