一种应用于网页的图片提取方法及装置制造方法及图纸

技术编号:13545099 阅读:52 留言:0更新日期:2016-08-18 10:13
本申请公开一种应用于网页的图片提取方法及装置。该方法中,获取待处理的网页的原始编程语言;获取原始编程语言的语言标签,根据语言标签,滤除其中与正文无关的内容,得到目标编程语言;根据目标编程语言的语言标签的文字密度,确定文字密度最大的语言标签为目标标签;将目标标签指示的网页区域作为目标区域,选择目标区域中的图片作为待提取的图片。通过本方案,无需预先知悉网页的布局结构,适用范围较宽,从而解决现有技术中第一种图片提取方法具有的通用性差的问题;而且只需对待处理的网页的原始编程语言进行分析处理,与现有技术中第二种图片提取方法相比,需要处理的数据较少,解决该方法所具有的开发测试周期长,计算繁琐复杂的问题。

【技术实现步骤摘要】
201610184168

【技术保护点】
一种应用于网页的图片提取方法,其特征在于,包括:获取待处理的网页的原始编程语言;获取所述原始编程语言中包括的语言标签,并根据所述语言标签,滤除所述原始编程语言中与正文无关的内容,得到目标编程语言;根据所述目标编程语言中包括的语言标签的文字密度,确定所述文字密度最大的语言标签为目标标签;将所述目标标签指示的网页区域作为目标区域,选择所述目标区域中的图片作为待提取的图片。

【技术特征摘要】
1.一种应用于网页的图片提取方法,其特征在于,包括:获取待处理的网页的原始编程语言;获取所述原始编程语言中包括的语言标签,并根据所述语言标签,滤除所述原始编程语言中与正文无关的内容,得到目标编程语言;根据所述目标编程语言中包括的语言标签的文字密度,确定所述文字密度最大的语言标签为目标标签;将所述目标标签指示的网页区域作为目标区域,选择所述目标区域中的图片作为待提取的图片。2.根据权利要求1所述的应用于网页的图片提取方法,其特征在于,所述获取所述原始编程语言中包括的语言标签,并根据所述语言标签,滤除所述原始编程语言中与正文无关的内容,得到目标编程语言,包括:获取所述原始编程语言中包含的语言标签后,生成DOM树,其中,所述DOM树的节点为所述原始编程语言中包含的语言标签;遍历所述DOM树,查找所述DOM树中与正文无关的语言标签,并滤除所述与正文无关的语言标签指示的编程语言,将剩余的编程语言作为目标编程语言。3.根据权利要求1所述的应用于网页的图片提取方法,其特征在于,所述选择所述目标区域中的图片作为待提取的图片,包括:获取所述目标区域中包含的图片,将所述目标区域中包含的图片作为目标图片;若所述目标图片的数量不大于m,确定所述目标图片为所述待提取的图片;若所述目标图片的数量大于m,滤除所述目标图片中的图片,根据滤除后的剩余图片确定所述待提取的图片;其中,m为待提取的图片的预设值。4.根据权利要求3所述的应用于网页的图片提取方法,其特征在于,所述根据滤除后的剩余图片确定所述待提取的图片包括:判断所述滤除后的剩余图片的数量是否大于m;若所述滤除后的剩余图片的数量不大于m,则确定所述滤除后的剩余图片为所述待提取的图片;若所述滤除后的剩余图片的数量大于m,将所述滤除后的剩余图片的描述信息与所
\t述网页的描述内容进行内容匹配,并根据匹配程度确定所述剩余图片中的m张图片为所述待提取的图片。5.根据权利要求4所述的应用于网页的图片提取方法,其特征在于,所述剩余图片的描述信息为所述剩余图片的title属性信息和/或alt属性信息。6.一种应用于网页的图片提取装置,其特...

【专利技术属性】
技术研发人员:谢晓静
申请(专利权)人:乐视控股北京有限公司乐视网信息技术北京股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1