下载多源、异构流态大数据分布式在线实时处理方法及系统的技术资料

文档序号:21089904

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。

本公开提供了一种多源、异构流态大数据分布式在线实时处理方法及系统,利用分布式爬虫去重算法对各来源的网页数据进行爬取,对爬取的页面进行预处理,利用视觉的页面分割算法构建相应的树,并根据视觉规则进行噪音节点的剪枝,对多层页面进行分类,根据不同特...
该专利属于山东省科学院情报研究所所有,仅供学习研究参考,未经过山东省科学院情报研究所授权不得商用。

详细技术文档下载地址

温馨提示:您尚未登录,请点 登陆 后下载,如果您还没有账户请点 注册 ,登陆完成后,请刷新本页查看技术详细信息。