【技术实现步骤摘要】
一种数据处理方法、装置和用于数据处理的装置
本专利技术涉及互联网信息处理
,尤其涉及一种数据处理方法、装置和用于数据处理的装置。
技术介绍
图片搜索是指依据用户的搜索请求,从图片数据中查找并按照相关性等指标,返回排序后的图片结果给用户的信息检索过程,图片搜索可以满足用户在互联网上找图的需求。在图片数据的积累过程中,网页的目标图片的召回对图片搜索中的排序结果有着重要的影响。网页的目标图片可以指网页中与正文内容紧密相关的图片。与目标图片相对应的概念可以包括:广告图片、推荐内容图片、网站LOGO(商标,LOGOtype)等等与正文内容关联较小的图片,以下简称为非目标图片。一种相关技术可以对网页进行渲染,并在渲染后的网页的基础上对目标图片进行召回;然而,网页的渲染过程中需要消耗较多的系统资源和时间资源,且使得目标图片的召回效率较低。
技术实现思路
本专利技术实施例提供一种数据处理方法、装置和用于数据处理的装置,可以节省网页的渲染过程中消耗的系统资源和时间资源,且可以提高目标图片的召回效率。为 ...
【技术保护点】
1.一种数据处理方法,其特征在于,所述方法包括:/n依据网页源码所包括的页面元素,对网页进行分块,以得到所述网页包括的多个页面块;/n确定所述页面块所对应图片的图片特征;所述图片特征包括:图片周围环绕文本特征和页面结构特征;/n依据所述图片特征,判断对应的图片是否为目标图片。/n
【技术特征摘要】
1.一种数据处理方法,其特征在于,所述方法包括:
依据网页源码所包括的页面元素,对网页进行分块,以得到所述网页包括的多个页面块;
确定所述页面块所对应图片的图片特征;所述图片特征包括:图片周围环绕文本特征和页面结构特征;
依据所述图片特征,判断对应的图片是否为目标图片。
2.根据权利要求1所述的方法,其特征在于,所述页面结构特征包括:图片对应的页面块特征、和/或、图片周围页面元素特征。
3.根据权利要求2所述的方法,其特征在于,所述页面块特征包括如下特征中的至少一种:
页面块所包括页面元素的第一数量;
页面块所包含页面元素的第一数量相对于网页所包括页面元素的第二数量的比例;
页面块所包含时间信息的第三数量;
页面块所包含时间信息的第三数量相对于网页所包括时间信息的第四数量的比例;
页面块所包含超链接文本的第五数量相对于页面块所包含文本的第六数量的比例;
页面块所包含超链接图片的第七数量相对于页面块所包含图片的第八数量的比例。
4.根据权利要求2所述的方法,其特征在于,所述图片周围页面元素特征包括:图片周围页面元素的数量、和/或、图片周围超链接图片的比例。
5.根据权利要求1所述的方法,其特征在于,所述图片周围环绕文本特征包括如下特征中的至少一种:
推荐文本特征;
图片周围环绕文本长度的方差;
图片周围环绕文本总数;
图片周围环绕文本中超链接文本的比例;以及
图片周围环绕文本的平均...
【专利技术属性】
技术研发人员:孙玉玺,丁文彪,周泽南,苏雪峰,佟子健,
申请(专利权)人:北京搜狗科技发展有限公司,搜狗杭州智能科技有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。