文章推送及模型训练方法、装置、存储介质和计算机设备制造方法及图纸

技术编号:23343775 阅读:33 留言:0更新日期:2020-02-15 04:01
本申请涉及一种文章推送及模型训练方法、装置、存储介质和计算机设备,其中,文章推送方法包括:获取候选文章;从所述候选文章提取至少两个模态的特征,构成候选文章特征;所述至少两个模态的特征包括文章文本特征和文章媒体特征;根据目标用户的已读文章特征和所述候选文章特征,构成目标特征矩阵;所述已读文章特征包括所述目标用户的已读文章的至少两个模态的特征;在将目标特征矩阵输入到序列预测模型后,当通过序列预测模型确定候选文章符合目标用户的推送条件时,向目标用户推送候选文章。本申请提供的方案可以解决因阅读数据缺失引起的新文章推送准确性低的问题。

Article push and model training methods, devices, storage media and computer equipment

【技术实现步骤摘要】
文章推送及模型训练方法、装置、存储介质和计算机设备
本申请涉及互联网
,特别是涉及一种文章推送及模型训练方法、装置、存储介质和计算机设备。
技术介绍
随着互联网技术快速发展,用户可以通过网络享受各种在线电子服务,例如阅览体育、科技或娱乐等方面的文章。由于信息化的迅猛发展,信息量呈指数型增长,用户不得不从海量文章中查找自己感兴趣的文章。为了提高文章查找效率,有些网络平台主动进行文章推送。传统的文章推送方式通常是基于协同过滤算法在用户群中找到指定用户的相似用户,再根据相似用户对待推送文章的阅读数据,分析是否需要向指定用户推送该文章。但对于新发布的文章,尚不存在任何用户的阅读数据,从而基于协同过滤算法也就难以进行新文章的准确推送。
技术实现思路
基于此,有必要针对基于协同过滤算法难以准确推送新文章的技术问题,提供一种文章推送及模型训练方法、装置、存储介质和计算机设备。一种文章推送方法,包括:获取候选文章;从所述候选文章提取至少两个模态的特征,构成候选文章特征;所述至少两个模态的特征包括文章文本本文档来自技高网...

【技术保护点】
1.一种文章推送方法,包括:/n获取候选文章;/n从所述候选文章提取至少两个模态的特征,构成候选文章特征;所述至少两个模态的特征包括文章文本特征和文章媒体特征;/n根据目标用户的已读文章特征和所述候选文章特征,构成目标特征矩阵;所述已读文章特征包括所述目标用户的已读文章的至少两个模态的特征;/n在将所述目标特征矩阵输入到序列预测模型后,当通过所述序列预测模型确定所述候选文章符合所述目标用户的推送条件时,向所述目标用户推送所述候选文章。/n

【技术特征摘要】
1.一种文章推送方法,包括:
获取候选文章;
从所述候选文章提取至少两个模态的特征,构成候选文章特征;所述至少两个模态的特征包括文章文本特征和文章媒体特征;
根据目标用户的已读文章特征和所述候选文章特征,构成目标特征矩阵;所述已读文章特征包括所述目标用户的已读文章的至少两个模态的特征;
在将所述目标特征矩阵输入到序列预测模型后,当通过所述序列预测模型确定所述候选文章符合所述目标用户的推送条件时,向所述目标用户推送所述候选文章。


2.根据权利要求1所述的方法,其特征在于,所述从所述候选文章提取至少两个模态的特征,构成候选文章特征包括:
从所述候选文章的标题和内容中提取文章文本特征;
从所述候选文章所包含的图片和视频中的至少一种中提取文章媒体特征;
将所述文章文本特征与文章媒体特征进行多模态融合,得到候选文章特征。


3.根据权利要求2所述的方法,其特征在于,所述从所述候选文章的标题和内容中提取文章文本特征包括:
从所述候选文章的标题中提取标题特征;
当所述候选文章不存在文本内容时,根据文章数据库中各文章的内容特征的融合特征,确定所述候选文章的内容特征;
将所述候选文章的标题特征与内容特征进行融合,得到文章文本特征。


4.根据权利要求2所述的方法,其特征在于,所述从所述候选文章所包含的图片和视频中的至少一种中提取文章媒体特征包括:
当所述候选文章中不存在图片时,根据文章数据库中各文章的图片特征的融合特征,确定所述候选文章的图片特征;
当所述候选文章中不存在视频时,根据所述文章数据库中各文章的视频帧特征的融合特征,确定所述候选文章的视频帧特征;
将所述候选文章的图片特征与视频帧特征进行融合,得到文章媒体特征。


5.根据权利要求1所述的方法,其特征在于,所述根据目标用户的已读文章特征和所述候选文章特征,构成目标特征矩阵包括:
获取文章特征矩阵;
基于所述文章特征矩阵对嵌入层进行初始化;
根据目标用户的阅读记录,确定目标用户在所述候选文章发布之前单位时长内的已读文章;
基于所述已读文章及所述候选文章的文章标识,生成标识序列;
将所述标识序列输入所述嵌入层进行特征抽取,得到目标特征矩阵。


6.根据权利要求5所述的方法,其特征在于,所述基于已读文章及所述候选文章的文章标识,生成标识序列包括:
根据所述序列预测模型中序列预测单元的数量确定目标时间步长;
当所述已读文章的数量小于所述目标时间步长时,基于预设的填充标识,已读文章的文章标识以及所述候选文章的文章标识,生成标识序列。


7.根据权利要求6所述的方法,其特征在于,所述方法还包括:
当所述已读文章的数量大于所述目标时间步长时,基于靠近所述候选文章发布时间发布的所述目标时间步长所对应数量的已读文章的文章标识,以及所述候选文章的文章标识,生成标识序列。


8.根据权利要求6所述的方法,其特征在于,所述将所述文章特征矩阵及所述标识序列输入嵌入层进行特征抽取,得到目标特征矩阵包括:
通过嵌入层对所述标识序列中每个标识进行遍历;
当所述标识为填充标识时,获取预设的通用文章特征;
当所述标识为文章标识时,在所述文章特征矩阵中抽取相应的已读文章特征或候选文章特征;
当遍历结束时,基于获取的通用文章特征、已读文章特征以及...

【专利技术属性】
技术研发人员:刘龙坡
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1