一种网络短视频信息收集方法及装置制造方法及图纸

技术编号:34516912 阅读:28 留言:0更新日期:2022-08-13 21:04
本发明专利技术提供的一种网络短视频信息收集方法及装置,通过根据节点信息判断目标节点是否为全局唯一节点;如果目标节点是全局唯一节点,则将初始路径进行精简,以形成表示目标节点的节点信息的最终路径;如果目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;将全局唯一节点至目标节点的节点信息按照层级组成最终路径。本发明专利技术通过精炼路径的方式,降低网页结构改变对目标节点的影响,从而按照最终路径获取目标信息对应的目标数据进行存储,降低获取目标数据的出错概率,且可以降低网络结构改变为目标数据获取的影响概率。降低网络结构改变为目标数据获取的影响概率。降低网络结构改变为目标数据获取的影响概率。

【技术实现步骤摘要】
一种网络短视频信息收集方法及装置


[0001]本专利技术属于视频处理
,涉及一种网络短视频信息收集方法及装置。

技术介绍

[0002]随着互联网的普及,短视频已随处可见,但数量众多的短视频让人眼花缭乱,而对网络短视频进行有效的归类整理是网络开发者经常需要研究的问题。对短视频进行归类整理,可以使用户从杂乱无章的信息中解脱出来,实现精准匹配,从而向用户推送感兴趣的视频而剔除无关不感兴趣的视频。同时短视频还需按照法规进行审核,以剔除不合法规的有害视频。而对网络短视频进行有效归类之前需要进行短视频收集。
[0003]短视频可以通过人工在短视频网站下载视频,复制视频的标题、描述、观看数、点赞数、转发数、评论数等视频信息实现收集目的,当然也可以使用自动工具进行获取的。人工方式收集不但效率低下,且成本较高。而自动工具收集需要提前设定好视频的具体信息,如此得到的视频无法精确到指定字段,需要人工再次提取。
[0004]参考图1所示,现有技术中通过Xpath对网络视频进行定位,以得到数据。在图1中的树型结构,沿着箭头方向有多条路线,而Xpat本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种网络短视频信息收集方法,其特征在于,包括:以脚本方式获取网络短视频的HTML网页文档以及获取待查找的目标信息;将所述网页文档转化为DOM树结构;使用xpath定位方法,在所述DOM树结构中定位包含所述目标信息的目标节点,得到根节点到目标节点的初始路径;其中,所述初始路径由节点名称按照根节点至目标节点的层级依次组成;根据节点信息,判断所述目标节点是否为全局唯一节点;如果所述目标节点是全局唯一节点,则将所述初始路径进行精简,以形成表示目标节点的节点信息的最终路径;如果所述目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点;将所述全局唯一节点至目标节点的节点信息按照层级组成最终路径;按照所述最终路径获取所述目标信息对应的目标数据进行存储。2.根据权利要求1所述的网络短视频信息收集方法,其特征在于,所述根据节点信息,判断目标节点是否为全局唯一节点包括:判断目标节点的节点信息是否与其他节点是否存在部分或者全部相同;如果存在部分或全部相同,则所述目标节点不为全局唯一节点;如果目标节点的节点信息与其他节点的完全不同,则目标节点为全局唯一节点。3.根据权利要求1所述的网络短视频信息收集方法,其特征在于,所述如果所述目标节点不是全局唯一节点,则在初始路径上确定全局唯一节点包括:如果所述目标节点不是全局唯一节点,则在初始路径上确定所述目标节点的父节点是否为全局唯一节点;如果所述父节点不是全局唯一节点,则重复父节点的父节点是否为全局唯一节点的步骤,直至在所述初始路径上找到全局唯一节点。4.根据权利要求3所述的网络短视频信息收集方法,其特征在于,在确定全局唯一节点之后,所述网络段视频收集方法还包括:判断是否存在亲兄弟节点与所述目标节点重复,使得所述目标节点不为全局唯一节点。5.根据权利要求4所述的网络短视频信息收集方法,其特征在于,将所述全局唯一节点至目标节点的节点信息按照层级组成最终路径包括:当存在亲兄弟节点与所述目标节点重复时,则确定目标节点在重复的亲兄弟节点中的顺序;将全局唯一节点至目标节点的节点信息按照节点信息组成精简路径;将所述精简路径最后添加目标节点在重复的亲兄弟节点中的顺序。6.根据权利要...

【专利技术属性】
技术研发人员:刘怀亮熊帅杨斌赵舰波
申请(专利权)人:乐知未来科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1