The invention discloses a crawling data self-repairing method, device, equipment and medium, which includes: crawling data according to the crawling data feature label; when the data format is inconsistent with the corresponding standard value, determining the data as error data, extracting the elements from the preset value of the current error data and inputting them into the RNN neural network model, generating the content prediction values corresponding to each element and combining them with each other. Input SVM classification model to get the corresponding classification of content prediction value; According to the format and classification of error data, the content prediction value with the greatest similarity is regarded as the target content prediction value; Locate the location of the target content prediction value, extract the elements of the target content prediction value and the preset value of the distance target content prediction value; Within the elements of the preset value of the current error data and the distance target. When the elements of the preset values of the predicted values are consistent, the correct data of the erroneous data is determined, and the erroneous data is repaired according to the predicted values of the target content. The invention can improve the efficiency of crawling data.
【技术实现步骤摘要】
爬取数据自修复方法、装置、设备及介质
本专利技术涉及数据修复领域,尤其涉及一种爬取数据自修复方法、装置、设备及计算机可读存储介质。
技术介绍
目前,爬取目标网页改版后需要重新分析html代码和待爬取元素位置,重新修改代码、测试、发版。服务可用性和稳定性降低、人力维护成本高。目前爬虫解析网页基于CSS(CascadingStyleSheets,层叠样式表)或者Xpath(XMLPathLanguage,XML路径语言)来提取页面内容,如果页面改版导致CSS或者Xpath改变,则会导致程序因为找不到目标元素而解析失败报错。在爬取的数据出现错误时,需要重新分析提取到的页面内容,然后修改代码、提交测试、发版等流程,然后再重新进行爬取数据,造成爬取数据的过程过长,爬取数据的效率较低。
技术实现思路
本专利技术的主要目的在于提出一种爬取数据自修复方法、装置、设备及计算机可读存储介质,旨在解决现有技术爬取数据的过程过长,爬取数据的效率较低的技术问题。为实现上述目的,本专利技术提供一种爬取数据自修复方法,所述方法包括:启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数 ...
【技术保护点】
1.一种爬取数据自修复方法,其特征在于,所述方法包括以下步骤:启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复。
【技术特征摘要】
1.一种爬取数据自修复方法,其特征在于,所述方法包括以下步骤:启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;将爬取到的数据与对应的标准值进行格式对比;若所述爬取到的数据与对应的标准值格式不一致,则确定所述爬取到的数据为出错数据,则将距离当前出错数据预设值的元素提取出来;将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类;根据所述出错数据的格式以及所述内容预测值对应的分类,计算所述出错数据与所述内容预测值的相似度,并挑选相似度最大的内容预测值作为目标内容预测值;通过Xpath语法及Selector选择器定位所述目标内容预测值在所述网页中的位置,并提取所述目标内容预测值及距离目标内容预测值预设值的元素;在距离当前出错数据预设值的元素与距离目标内容预测值预设值的元素一致时,确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复。2.如权利要求1所述的爬取数据自修复方法,其特征在于,所述将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类的步骤之前,还包括:从样本词语库中获取训练所述SVM分类模型的样本词语,并将所述样本词语输入公式中,计算所述样本词语的条件概率,其中,P为所述条件概率,C(wi-n-1,……,wi)为所述样本词语的字符串,wi-n-1,……,wi为所述样本词语出现在所述样本词语库中的次数;利用条件概率大于预设值的样本词语对所述SVM分类模型进行训练,获得训练后的SVM分类模型。3.如权利要求2所述的爬取数据自修复方法,其特征在于,所述通过条件概率大于预设值的样本词语对所述SVM分类模型进行训练,获得训练后的SVM分类模型的步骤包括:根据预设识别要求定义样本属性,并根据所述样本属性对所述条件概率大于预设值的样本词语进行分类;以预设比例在所述样本词语中抽取一次训练样本,并在预设坐标系中绘制所述一次训练样本对应的一次特征点;根据所述特征点的位置和对应的样本属性对所述预设坐标系进行区域划分,并根据区域划分情况获取对应的最近分隔函数;以所述预设比例在所述样本词语中抽取迭代训练样本,并在预设坐标系中绘制所述迭代训练样本对应的迭代特征点;通过所述迭代特征点对所述最近分隔函数进行迭代调整,直至所述最近分隔函数的正确分隔率达到预设阈值,获得SVM分类模型。4.如权利要求2所述的爬取数据自修复方法,其特征在于,所述将提取到的元素输入已训练的RNN神经网络模型,生成各个元素对应的内容预测值,将所述内容预测值输入SVM分类模型,得出所述内容预测值对应的分类的步骤之前,还包括:获取条件概率大于预设值的样本词语,并将所述条件概率大于预设值的样本词语输入SVM分类模型中进行分类,获得分类后的样本词语;把分类后的样本词语输入创建好的RNN神经网络模型进行训练,从而获得训练后的RNN神经网络模型。5.如权利要求1-4任一项所述的爬取数据自修复方法,其特征在于,所述确定所述目标内容预测值为所述出错数据对应的正确数据,并根据所述目标内容预测值对出错数据进行修复的步骤之后,还包括:将修复后的数据标识为程序自动识别,并通过后台页面展示,以便人工进行核实;若通过人工核实,确定为正确数据,则将正确的数据加入到样本词语库中以供再次训练所述SVM分类模型及RNN神经网络模型。6.一种爬取数据自修复装置,其特征在于,所述装置包括:数据爬起模块,用于启动系统中添加的数据采集器,根据接收到的爬取数据特征标签,在网页中选取爬取数据,并进行数据爬取;格式对比模块,...
【专利技术属性】
技术研发人员:艾明,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。