广告页面信息的识别和处理方法技术

技术编号:39665376 阅读:8 留言:0更新日期:2023-12-11 18:29
本申请公开了一种广告页面信息的识别和处理方法

【技术实现步骤摘要】
广告页面信息的识别和处理方法、装置、电子设备及介质


[0001]本申请涉及数据处理
,特别涉及一种广告页面信息的识别和处理方法

装置

电子设备及介质


技术介绍

[0002]基于在不同的渠道场景中投放的广告页和网站中投放的营销广告图像中存在许多关于营销产品的关键的推广信息和营销信息,业务人员或设计人员需要定期对这些广告页面信息进行识别,获取相关信息来优化自身业务

[0003]现有技术中通常采用人为识别广告页面信息或者使用传统算法识别广告页面信息

但人为识别过程中经常存在耗时

误判以及差异项识别出现遗漏的问题,且效率低下

而使用传统算法识别广告页面信息,当存在场景复杂

广告内容页面复杂或广告页面文字扭曲的情况时,使用传统算法识别容易导致识别失真,无法精确识别到广告页面的投放内容,且耗时较长,效率低下,自动化程度低


技术实现思路

[0004]为了解决至少一个上述相关技术中存在的技术问题,本申请实施例提出了一种广告页面信息的识别和处理方法

装置

电子设备及介质

[0005]本申请实施例的第一方面提出了一种一种广告页面信息的识别和处理方法,包括:
[0006]获取广告页面信息;所述广告页面信息包括文本内容信息和图像内容信息;
[0007]对所述文本内容信息进行数据清洗,获得规范化的所述文本内容信息;
[0008]对所述图像内容信息进行图像识别,获得对应的图像文本信息;
[0009]将规范化的所述文本内容信息和所述图像文本信息进行合并处理,获得合并文本信息;
[0010]通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量;
[0011]获取语料库数据;
[0012]通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息;所述关键词差异信息用于反映所述广告页面信息与所述语料库数据之间的差异

[0013]在一些实施例,所述方法还包括:
[0014]根据所述关键词差异信息,生成广告页面优化策略

[0015]在一些实施例,所述对所述图像内容信息进行图像识别,获得对应的图像文本信息这一步骤,具体包括:
[0016]对所述图像内容信息进行预处理;
[0017]采用
OCR
模型框架,对所述图像内容信息进行图像识别和文本信息提取,获得所述
图像文本信息

[0018]在一些实施例,所述卷积神经网络模型包括
Convolution
卷积层
、max

pooling
池化层以及
softmax
全连接层,所述通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量这一步骤,具体包括:
[0019]通过所述卷积神经网络模型对所述合并文本信息进行
word2vec
分词训练,将所述合并文本信息映射成多维的预处理文本词组向量;
[0020]将所述预处理文本词组向量依次通过所述
Convolution
卷积层

所述
max

pooling
池化层以及所述
softmax
全连接层,对所述预处理文本词组向量进行文本分类处理,获得所述文本词组向量

[0021]在一些实施例,所述语料库数据包括多个产品特性语料库数据和多个广告页面特性语料库数据,所述通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息这一步骤,具体包括:
[0022]通过
Embedding
方式,对所述语料库数据与所述文本词组向量进行
Word Embedding
词向量空间构建,获得相似信息词向量空间;
[0023]根据所述相似信息词向量空间,计算各所述产品特性语料库数据与所述文本词组向量的距离,确定相似产品特性数据;所述相似产品特性数据为在所述相似信息词向量空间中与所述文本词组向量距离最近的所述产品特性语料库数据;
[0024]根据所述相似信息词向量空间,计算各所述广告页面特性语料库数据与所述文本词组向量的距离,确定相似广告页面特性语料库数据;所述相似广告页面特性语料库数据为在所述相似信息词向量空间中与所述文本词组向量距离最近的所述广告页面特性语料库数据;
[0025]根据所述相似产品特性数据

所述相似广告页面特性语料库数据以及所述文本词组向量,进行关键词差异分析,确定所述关键词差异信息

[0026]在一些实施例,所述对所述文本内容信息进行数据清洗,获得规范化的所述文本内容信息这一步骤,具体包括:
[0027]通过正则匹配方式,对所述文本内容信息进行规范化处理,过滤所述文本内容信息中的不规范字符,获得规范化的所述文本内容信息

[0028]在一些实施例,所述卷积神经网络模型为
TextCNN。
[0029]本申请实施例的第二方面提出了一种广告页面信息的识别和处理装置,包括:
[0030]第一模块,用于获取广告页面信息;所述广告页面信息包括文本内容信息和图像内容信息;
[0031]第二模块,用于对所述文本内容信息进行数据清洗,获得规范化的所述文本内容信息;
[0032]第三模块,用于对所述图像内容信息进行图像识别,获得对应的图像文本信息;
[0033]第四模块,用于将规范化的所述文本内容信息和所述图像文本信息进行合并处理,获得合并文本信息;
[0034]第五模块,用于通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量;
[0035]第六模块,用于获取语料库数据;
[0036]第七模块,用于通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息;所述关键词差异信息用于反映所述广告页面信息与所述语料库数据之间的差异

[0037]本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的广告页面信息的识别和处理方法

[0038]本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质包括计算机程序,所述计算机程序在被处理器执行时实现上述第一方面所述的广告页面信息的识别和处理方法

[0039]本申请提供的一种广告页本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种广告页面信息的识别和处理方法,其特征在于,包括:获取广告页面信息;所述广告页面信息包括文本内容信息和图像内容信息;对所述文本内容信息进行数据清洗,获得规范化的所述文本内容信息;对所述图像内容信息进行图像识别,获得对应的图像文本信息;将规范化的所述文本内容信息和所述图像文本信息进行合并处理,获得合并文本信息;通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量;获取语料库数据;通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息;所述关键词差异信息用于反映所述广告页面信息与所述语料库数据之间的差异
。2.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述方法还包括:根据所述关键词差异信息,生成广告页面优化策略
。3.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述对所述图像内容信息进行图像识别,获得对应的图像文本信息这一步骤,具体包括:对所述图像内容信息进行预处理;采用
OCR
模型框架,对所述图像内容信息进行图像识别和文本信息提取,获得所述图像文本信息
。4.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述卷积神经网络模型包括
Convolution
卷积层
、max

pooling
池化层以及
softmax
全连接层,所述通过卷积神经网络模型对所述合并文本信息进行文本分类处理,获得文本词组向量这一步骤,具体包括:通过所述卷积神经网络模型对所述合并文本信息进行
word2vec
分词训练,将所述合并文本信息映射成多维的预处理文本词组向量;将所述预处理文本词组向量依次通过所述
Convolution
卷积层

所述
max

pooling
池化层以及所述
softmax
全连接层,对所述预处理文本词组向量进行文本分类处理,获得所述文本词组向量
。5.
根据权利要求1所述的广告页面信息的识别和处理方法,其特征在于,所述语料库数据包括多个产品特性语料库数据和多个广告页面特性语料库数据,所述通过
Embedding
方式,将所述语料库数据与所述文本词组向量进行相似度分析,确定关键词差异信息这一步骤,具体包括:通过
Embedding

【专利技术属性】
技术研发人员:刘敏李创林肖运龙
申请(专利权)人:广东百家信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1