爬取数据自修复方法、装置、设备及介质制造方法及图纸

技术编号:20916688 阅读:23 留言:0更新日期:2019-04-20 09:43
本发明专利技术公开了一种爬取数据自修复方法、装置、设备及介质,包括:根据爬取数据特征标签进行数据爬取;当数据与对应的标准值格式不一致,确定数据为出错数据,将距离当前出错数据预设值的元素提取并输入RNN神经网络模型,生成各个元素对应的内容预测值并输入SVM分类模型,得出内容预测值对应的分类;根据出错数据的格式及分类,将相似度最大的内容预测值作为目标内容预测值;定位目标内容预测值的位置,提取目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定目标内容预测值为出错数据的正确数据,根据目标内容预测值对出错数据进行修复。本发明专利技术能够提高爬取数据的效率。

Self-repairing methods, devices, equipment and media for crawling data

The invention discloses a crawling data self-repairing method, device, equipment and medium, which includes: crawling data according to the crawling data feature label; when the data format is inconsistent with the corresponding standard value, determining the data as error data, extracting the elements from the preset value of the current error data and inputting them into the RNN neural network model, generating the content prediction values corresponding to each element and combining them with each other. Input SVM classification model to get the corresponding classification of content prediction value; According to the format and classification of error data, the content prediction value with the greatest similarity is regarded as the target content prediction value; Locate the location of the target content prediction value, extract the elements of the target content prediction value and the preset value of the distance target content prediction value; Within the elements of the preset value of the current error data and the distance target. When the elements of the preset values of the predicted values are consistent, the correct data of the erroneous data is determined, and the erroneous data is repaired according to the predicted values of the target content. The invention can improve the efficiency of crawling data.

【技术实现步骤摘要】
爬取数据自修复方法、装置、设备及介质
本专利技术涉及数据修复领域,尤其涉及一种爬取数据自修复方法、装置、设备及计算机可读存储介质。
技术介绍
目前,爬取目标网页改版后需要重新分析html代码和待爬取元素位置,重新修改代码、测试、发版。服务可用性和稳定性降低、人力维护成本高。目前爬虫解析网页基于CSS(CascadingStyleSheets,层叠样式表)或者Xpath(XMLPathLanguage,XML路径语言)来提取页面内容,如果页面改版导致CSS或者Xpath改变,则会导致程序因为找不到目标元素而解析失败报错。在爬取的数据出现错误时,需要重新分析提取到的页面内容,然后修改代码、提交测试、发版等流程,然后再重新进行爬取数据,造成爬取数据的过程过长,爬取数据的效率较低。
技术实现思路
本专利技术的主要目的在于提出一种爬取数据自修复方法、装置、设备及计算机可读存储介质,旨在解决现有技术爬取数据的过程过长,爬取数据的效率较低的技术问题。为实现上述目的,本专利技术提供一种爬取数据自修复方法,所述方法包括:启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复。此外,为实现上述目的,本专利技术还提供一种爬取数据自修复装置,所述装置包括:数据爬起模块,用于启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;格式对比模块,用于将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;输入模块,用于将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;计算模块,用于根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;预测模块,用于通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;数据修复模块,用于在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复。此外,为实现上述目的,本专利技术还提供一种爬取数据自修复设备,所述爬取数据自修复设备包括爬取数据自修复程序,所述爬取数据自修复程序被所述爬取数据自修复设备执行时实现如上所述的爬取数据自修复方法步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有爬取数据自修复程序,所述爬取数据自修复程序被处理器执行时实现如上所述的爬取数据自修复方法的步骤。本专利技术提出的爬取数据自修复方法、装置、设备及计算机可读存储介质,启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式一致,则确定所述爬取到的数据为正确数据,并将所述爬取到的数据进行保存;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;在所述距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复,在爬取数据出错时,不需要重新修改代码、测试、发版,再重新进行爬取,从而加快了爬取数据的速度,提高了爬取数据的效率。附图说明图1为本专利技术爬取数据自修复方法第一实施例的流程示意图;图2为本专利技术爬取数据自修复方法第二实施例中通过条件概率大于预设值的样本词语对所述SVM分类模型进行训练,获得训练后的SVM分类模型的步骤的细化流程示意图;图3为本专利技术爬取数据自修复方法第三实施例的流程示意图;图4为本专利技术爬取数据自修复方法第五实施例的流程示意图;图5为本专利技术实施例方案涉及的硬件运行环境的设备结构示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种爬取数据自修复方法。参照图1,图1为本专利技术爬取数据自修复方法第一实施例的流程示意图。在本实施例中,该方法包括:步骤S10,启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;在本实施例中,启动系统中添加的数据采集器,根据接收到的在网页中爬取数据特征标签,选取爬取数据,并进行数据爬取,具体地,首先启动系统中添加的数据采集器,其中所述数据采集器也可以为安装在浏览器中的数据采集器,其中,数据采集器是用来批量采集网页,论坛等的内容,直接保存到数据或发布到网络的一种信息化工具。可以根据用户设定的规则自动采集原网页,获取格式网页中需要的内容,现在发展成也可以对数据进行处理的工具(系统)。如SQLServer2008性能数据采集器可以让我们创建一个中心数据库来存储性能数据;它包含三个内置数据收集组来收集和存储数据;为了帮助我们识别和排除SQLServer性能相关的问题,我们可以使用其内置的三个报表来查看收集存储的数据。然后根据接收到的爬取条件,选取需要爬取的数据并进行采集,即可获取需要爬取的数据。步骤S20,将爬取到的数据与对应的标准值进行格式对比;当爬取到数据之后,将爬取到的数据与对应的标准值进行格式对比,比如当爬取到的数据为日期时,则将爬取到的数据与日期的标准格式进行对比,从而判断爬取到的内容是否正确,可以理解的是,本文档来自技高网...

【技术保护点】
1.一种爬取数据自修复方法,其特征在于,所述方法包括以下步骤:启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复。

【技术特征摘要】
1.一种爬取数据自修复方法,其特征在于,所述方法包括以下步骤:启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复。2.如权利要求1所述的爬取数据自修复方法,其特征在于,所述将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类的步骤之前,还包括:从样本词语库中获取训练所述SVM分类模型的样本词语,并将所述样本词语输入公式中,计算所述样本词语的条件概率,其中,P为所述条件概率,C(wi-n-1,……,wi)为所述样本词语的字符串,wi-n-1,……,wi为所述样本词语出现在所述样本词语库中的次数;利用条件概率大于预设值的样本词语对所述SVM分类模型进行训练,获得训练后的SVM分类模型。3.如权利要求2所述的爬取数据自修复方法,其特征在于,所述通过条件概率大于预设值的样本词语对所述SVM分类模型进行训练,获得训练后的SVM分类模型的步骤包括:根据预设识别要求定义样本属性,并根据所述样本属性对所述条件概率大于预设值的样本词语进行分类;以预设比例在所述样本词语中抽取一次训练样本,并在预设坐标系中绘制所述一次训练样本对应的一次特征点;根据所述特征点的位置和对应的样本属性对所述预设坐标系进行区域划分,并根据区域划分情况获取对应的最近分隔函数;以所述预设比例在所述样本词语中抽取迭代训练样本,并在预设坐标系中绘制所述迭代训练样本对应的迭代特征点;通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至所述最近分隔函数的正确分隔率达到预设阈值,获得SVM分类模型。4.如权利要求2所述的爬取数据自修复方法,其特征在于,所述将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类的步骤之前,还包括:获取条件概率大于预设值的样本词语,并将所述条件概率大于预设值的样本词语输入SVM分类模型中进行分类,获得分类后的样本词语;把分类后的样本词语输入创建好的RNN神经网络模型进行训练,从而获得训练后的RNN神经网络模型。5.如权利要求1-4任一项所述的爬取数据自修复方法,其特征在于,所述确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复的步骤之后,还包括:将修复后的数据标识为程序自动识别,并通过后台页面展示,以便人工进行核实;若通过人工核实,确定为正确数据,则将正确的数据加入到样本词语库中以供再次训练所述SVM分类模型及RNN神经网络模型。6.一种爬取数据自修复装置,其特征在于,所述装置包括:数据爬起模块,用于启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;格式对比模块,...

【专利技术属性】
技术研发人员:艾明
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1