【技术实现步骤摘要】
广告页面信息的识别和处理方法、装置、电子设备及介质
[0001]本申请涉及数据处理
,特别涉及一种广告页面信息的识别和处理方法
、
装置
、
电子设备及介质
。
技术介绍
[0002]基于在不同的渠道场景中投放的广告页和网站中投放的营销广告图像中存在许多关于营销产品的关键的推广信息和营销信息,业务人员或设计人员需要定期对这些广告页面信息进行识别,获取相关信息来优化自身业务
。
[0003]现有技术中通常采用人为识别广告页面信息或者使用传统算法识别广告页面信息
。
但人为识别过程中经常存在耗时
、
误判以及差异项识别出现遗漏的问题,且效率低下
。
而使用传统算法识别广告页面信息,当存在场景复杂
、
广告内容页面复杂或广告页面文字扭曲的情况时,使用传统算法识别容易导致识别失真,无法精确识别到广告页面的投放内容,且耗时较长,效率低下,自动化程度低
。
技术实现思路
[0004]为了解决至少一个上述相关技术中存在的技术问题,本申请实施例提出了一种广告页面信息的识别和处理方法
、
装置
、
电子设备及介质
。
[0005]本申请实施例的第一方面提出了一种一种广告页面信息的识别和处理方法,包括:
[0006]获取广告页面信息;所述广告页面信息包括文本内容信息和图像内容信息;
[0007]对所述文本内容信息进行数据清洗, ...
【技术保护点】
【技术特征摘要】 【专利技术属性】
1.
一种广告页面信息的识别和处理方法,其特征在于,包括:获取广告页面信息;所述广告页面信息包括文本内容信息和图像内容信息;对所述文本内容信息进行数据清洗,获得规范化的所述文本内容信息;对所述图像内容信息进行图像识别,获得对应的图像文本信息;将规范化的所述文本内容信息和所述图像文本信息进行合并处理,获得合并文本信息;通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量;获取语料库数据;通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息;所述关键词差异信息用于反映所述广告页面信息与所述语料库数据之间的差异
。2.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述方法还包括:根据所述关键词差异信息,生成广告页面优化策略
。3.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述对所述图像内容信息进行图像识别,获得对应的图像文本信息这一步骤,具体包括:对所述图像内容信息进行预处理;采用
OCR
模型框架,对所述图像内容信息进行图像识别和文本信息提取,获得所述图像文本信息
。4.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述卷积神经网络模型包括
Convolution
卷积层
、max
‑
pooling
池化层以及
softmax
全连接层,所述通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量这一步骤,具体包括:通过所述卷积神经网络模型对所述合并文本信息进行
word2vec
分词训练,将所述合并文本信息映射成多维的预处理文本词组向量;将所述预处理文本词组向量依次通过所述
Convolution
卷积层
、
所述
max
‑
pooling
池化层以及所述
softmax
全连接层,对所述预处理文本词组向量进行文本分类处理,获得所述文本词组向量
。5.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述语料库数据包括多个产品特性语料库数据和多个广告页面特性语料库数据,所述通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息这一步骤,具体包括:通过
Embedding
技术研发人员:刘敏,李创林,肖运龙,
申请(专利权)人:广东百家信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。