【技术实现步骤摘要】
一种基于JSOUP的数据处理方法,介质及装置
[0001]本专利技术涉及岩石实验设备,具体涉及一种基于JSOUP的数据处理方法,介质及装置。
技术介绍
[0002]有时在网站上维护一些公开的数据信息到表中,进行数据校验,现将阶段处理是方式采用后台人工校对处理,手动维护这些信息,但是很容易造成失误,并且校对上带来的人工成本开支也是比较庞大的。
技术实现思路
[0003]本专利技术的目的是提供一种基于JSOUP的数据处理方法,介质及装置,保证高效的数据爬取和入库。
[0004]为了实现上述目的,本专利技术提供如下技术方案:一种基于JSOUP的数据处理方法,包括以下步骤:
[0005]S01、与页面建立远程连接,获取页面;
[0006]S02、解析当前所述页面的信息,并基于预设的多个定位要素进行查找;
[0007]S03、根据多个所述定位要素收集的elements集合,生成表格;
[0008]S04、根据所述表格自动匹配入库。
[0009]作为优选的,所述步骤S01中 ...
【技术保护点】
【技术特征摘要】
1.一种基于JSOUP的数据处理方法,其特征在于,包括以下步骤:S01、与页面建立远程连接,获取页面;S02、解析当前所述页面的信息,并基于预设的多个定位要素进行查找;S03、根据多个所述定位要素收集的elements集合,生成表格;S04、根据所述表格自动匹配入库。2.根据权利要求1所述的一种基于JSOUP的数据处理方法,介质及装置,其特征在于,所述步骤S01中建立远程联系时候,若需要进行登录验证时,则需要将cookie一起带入,然后再获取信息。3.根据权利要求1所述的一种基于JSOUP的数据处理方法,介质及装置,其特征在于,所述步骤S02和步骤S03处理步骤如下:S11、根据jsoup中document.getElementsByClass(“layui
‑
table”);使各所述定位要素为layui
‑
table找到需要处理的表格;S12、根据表头元素内容获取顺序给属性名依次放入数组中;S13、通过document.getElementsByClass(“tr”)循环获取每行tr,并创建实体类,将实体类依次存放在集合里;S14、所述步骤S13结束后继续通过document.getElementsByClass(“td”)循环,获取每行tr里td元素的文本内容。4.根据权利要求3所述的一种基于JSOUP的数据处理方法,介质及装置,其特征在于,所述表头元素为所述表格中<tr>标签的一行,且该行列的第一行为表头数...
【专利技术属性】
技术研发人员:郭俊,
申请(专利权)人:江苏银承网络科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。