落地页特征提取方法、装置、设备及存储介质制造方法及图纸

技术编号:37889751 阅读:9 留言:0更新日期:2023-06-18 11:53
本发明专利技术公开了一种落地页特征提取方法、装置、设备及存储介质,属于互联网技术领域,所述方法包括:获取多媒体信息对应的系统日志;根据所述系统日志得到对应的落地页图片;对所述落地页图片进行文字识别,获得文字信息;根据所述文字信息确定所述落地页图片对应的落地页描述信息;根据所述落地页描述信息生成落地页特征。从而可结合上述技术,实现对多媒体信息的落地页特征的准确提取以及刻画,可以更加准确地描述多媒体信息的落地页特征,提升多媒体信息的转化率。体信息的转化率。体信息的转化率。

【技术实现步骤摘要】
落地页特征提取方法、装置、设备及存储介质


[0001]本专利技术涉及互联网
,尤其涉及一种落地页特征提取方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网的日益壮大与电子商务的不断发展,商业流量变现成为很多互联网公司的重点业务。可以通过点击通过率(Click

Through

Rate,CTR)模型来预测用户点击推荐的多媒体信息的概率,但是,现有的模型特征工程都是对用户以及多媒体信息的基本属性进行提取,缺乏对多媒体信息落地页的具体描述特征,导致多媒体信息的转化率不高。
[0003]上述内容仅用于辅助理解本专利技术的技术方案,并不代表承认上述内容是现有技术。

技术实现思路

[0004]本专利技术的主要目的在于提出一种落地页特征提取方法、装置、设备及存储介质,旨在解决如何准确地提取多媒体信息落地页中的描述特征的技术问题。
[0005]为实现上述目的,本专利技术提供一种落地页特征提取方法,所述落地页特征提取方法包括:
[0006]获取多媒体信息对应的系统日志;
[0007]根据所述系统日志得到对应的落地页图片;
[0008]对所述落地页图片进行文字识别,获得文字信息;
[0009]根据所述文字信息确定所述落地页图片对应的落地页描述信息;
[0010]根据所述落地页描述信息生成落地页特征。
[0011]可选地,所述根据所述系统日志得到对应的落地页图片,包括:
[0012]根据所述系统日志确定多个多媒体信息标记,以及各多媒体信息标识对应的点击链接;
[0013]根据所述点击链接得到对应的落地页图片。
[0014]可选地,所述根据所述点击链接得到对应的落地页图片,包括:
[0015]根据所述点击链接访问对应的多媒体信息页面;
[0016]基于所述多媒体信息页面进行截屏处理,得到对应的落地页图片。
[0017]可选地,所述根据所述点击链接访问对应的多媒体信息页面,包括:
[0018]调用预设浏览器访问所述点击链接对应的多媒体信息页面;
[0019]相应地,所述基于所述多媒体信息页面进行截屏处理,得到对应的落地页图片,包括:
[0020]调用所述预设浏览器的预设接口基于多媒体信息页面进行截屏处理,获得所述多媒体信息页面对应的截屏信息;
[0021]根据所述截屏信息得到对应的落地页图片。
[0022]可选地,所述根据所述系统日志确定多个多媒体信息标记,以及各多媒体信息标识对应的点击链接,包括:
[0023]根据所述系统日志确定多个多媒体信息标记;
[0024]检测所述多媒体信息标记中是否存在重复的标记;
[0025]若所述多媒体信息标记中不存在重复的标记,则根据所述系统日志确定各多媒体信息标识对应的点击链接。
[0026]可选地,所述检测所述多媒体信息标记中是否存在重复的标记之后,还包括:
[0027]若所述多媒体信息标记中存在重复的标记,则对所述多媒体信息标记进行去重处理,得到去重后的多媒体信息标识;
[0028]根据所述系统日志确定各去重后的多媒体信息标识对应的点击链接。
[0029]可选地,所述对所述落地页图片进行文字识别,获得文字信息,包括:
[0030]将所述落地页图片转换为预设格式的待处理落地页图片;
[0031]通过预设文字识别工具对所述待处理落地页图片进行文字识别,获得所述待处理落地页图片中包含的文字信息。
[0032]可选地,所述根据所述文字信息确定所述落地页图片对应的落地页描述信息,包括:
[0033]通过预设自然语言处理工具从所述文字信息中提取候选主题词;
[0034]根据所述候选主题词确定落地页主题词;
[0035]将所述落地页主题词作为用于描述所述落地页图片的落地页描述信息。
[0036]可选地,所述根据所述落地页描述信息生成落地页特征,包括:
[0037]对多媒体信息标识进行遍历,并将遍历到的多媒体信息标识作为当前标识;
[0038]将所述当前标识对应的落地页描述信息进行拼接,得到落地页特征。
[0039]可选地,所述根据所述落地页描述信息生成落地页特征之后,还包括:
[0040]根据所述落地页特征生成训练样本;
[0041]根据所述训练样本对预设点击通过率模型进行训练,得到目标点击通过率模型;
[0042]通过所述目标点击通过率模型预测用户点击所述多媒体信息的概率。
[0043]可选地,所述根据所述训练样本对预设点击通过率模型进行训练,得到目标点击通过率模型,包括:
[0044]在嵌入维度对所述训练样本进行聚合,得到聚合后的训练样本;
[0045]根据聚合后的训练样本对预设点击通过率模型进行训练,得到目标点击通过率模型。
[0046]可选地,所述根据所述落地页特征生成训练样本,包括:
[0047]从所述系统日志中提取多媒体信息侧特征以及用户侧特征;
[0048]根据所述多媒体信息侧特征以及所述用户侧特征生成初始样本;
[0049]根据所述落地页特征和所述初始样本生成训练样本。
[0050]此外,为实现上述目的,本专利技术还提出一种落地页特征提取装置,所述落地页特征提取装置包括:
[0051]系统日志模块,用于获取多媒体信息对应的系统日志;
[0052]落地页图片模块,用于根据所述系统日志得到对应的落地页图片;
[0053]文字识别模块,用于对所述落地页图片进行文字识别,获得文字信息;
[0054]描述信息模块,用于根据所述文字信息确定所述落地页图片对应的落地页描述信息;
[0055]特征构造模块,用于根据所述落地页描述信息生成落地页特征。
[0056]可选地,所述落地页图片模块,还用于根据所述系统日志确定多个多媒体信息标记,以及各多媒体信息标识对应的点击链接;根据所述点击链接得到对应的落地页图片。
[0057]可选地,所述落地页图片模块,还用于根据所述点击链接访问对应的多媒体信息页面;基于所述多媒体信息页面进行截屏处理,得到对应的落地页图片。
[0058]可选地,所述落地页图片模块,还用于调用预设浏览器访问所述点击链接对应的多媒体信息页面;调用所述预设浏览器的预设接口基于多媒体信息页面进行截屏处理,获得所述多媒体信息页面对应的截屏信息;根据所述截屏信息得到对应的落地页图片。
[0059]可选地,所述落地页图片模块,还用于根据所述系统日志确定多个多媒体信息标记;检测所述多媒体信息标记中是否存在重复的标记;若所述多媒体信息标记中不存在重复的标记,则根据所述系统日志确定各多媒体信息标识对应的点击链接。
[0060]可选地,所述落地页图片模块,还用于若所述多媒体信息标记中存在重复的标记,则对所述多媒体信息标记进行去重处理,得到去重后的多媒体信息标本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种落地页特征提取方法,其特征在于,所述落地页特征提取方法包括:获取多媒体信息对应的系统日志;根据所述系统日志得到对应的落地页图片;对所述落地页图片进行文字识别,获得文字信息;根据所述文字信息确定所述落地页图片对应的落地页描述信息;根据所述落地页描述信息生成落地页特征。2.如权利要求1所述的落地页特征提取方法,其特征在于,所述根据所述系统日志得到对应的落地页图片,包括:根据所述系统日志确定多个多媒体信息标记,以及各多媒体信息标识对应的点击链接;根据所述点击链接得到对应的落地页图片。3.如权利要求2所述的落地页特征提取方法,其特征在于,所述根据所述点击链接得到对应的落地页图片,包括:根据所述点击链接访问对应的多媒体信息页面;基于所述多媒体信息页面进行截屏处理,得到对应的落地页图片。4.如权利要求3所述的落地页特征提取方法,其特征在于,所述根据所述点击链接访问对应的多媒体信息页面,包括:调用预设浏览器访问所述点击链接对应的多媒体信息页面;相应地,所述基于所述多媒体信息页面进行截屏处理,得到对应的落地页图片,包括:调用所述预设浏览器的预设接口基于多媒体信息页面进行截屏处理,获得所述多媒体信息页面对应的截屏信息;根据所述截屏信息得到对应的落地页图片。5.如权利要求2所述的落地页特征提取方法,其特征在于,所述根据所述系统日志确定多个多媒体信息标记,以及各多媒体信息标识对应的点击链接,包括:根据所述系统日志确定多个多媒体信息标记;检测所述多媒体信息标记中是否存在重复的标记;若所述多媒体信息标记中不存在重复的标记,则根据所述系统日志确定各多媒体信...

【专利技术属性】
技术研发人员:於光中
申请(专利权)人:北京奇虎科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1