【技术实现步骤摘要】
本专利技术涉及计算机
,特别涉及一种数据处理的方法及装置。
技术介绍
互联网网页数据具有分布广、格式多样、非结构化等大数据的特点,因此需要用特定的方式对互联网页面的数据进行采集、加工和存储等工作。互联网网页数据采集就是一个获取互联网网页内容的过程,通过分析从网页中抽取出用户需要的数据内容。并对抽取出来的数据内容通过内容和格式的转换和加工处理,存储用以满足用户的需求。现有技术中,在获取网页中的数据时,用户找到需要获取的网页,操作相关工具从当前网页中提取出数据。通过上述描述可见,现有技术中,获取网页中数据的效率较低。
技术实现思路
本专利技术实施例提供了一种数据处理的方法及装置,能够提高获取网页中目标数据的效率。一方面,本专利技术实施例提供了一种数据处理的方法,包括:获取至少一个目标地址;从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;对各个所述目标地址对应的目标数据进行排重处理。进一步地,所述对各个所述目标地址对应的目标数据进行排重处理,包括:针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键 ...
【技术保护点】
一种数据处理的方法,其特征在于,包括:获取至少一个目标地址;从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;对各个所述目标地址对应的目标数据进行排重处理。
【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:获取至少一个目标地址;从每个所述目标地址对应的网页中,抽取每个所述目标地址对应的目标数据;对各个所述目标地址对应的目标数据进行排重处理。2.根据权利要求1所述的方法,其特征在于,所述对各个所述目标地址对应的目标数据进行排重处理,包括:针对每个目标地址对应的目标数据,从当前目标数据中抽取预设数量个出现次数最多的关键词,确定每个所述关键词的出现次数;计算每个所述关键词的哈希值;根据公式一确定所述当前目标数据的每个所述关键词的关键词相似参数,其中,所述公式一为:Wj,i=(-1)Xj,iNj,]]>其中,Wi为所述当前目标数据的第j个关键词的第i个关键词相似参数,Xj,i为所述当前目标数据的所述第j个关键词的哈希值从右开始的第i位的值,Nj为所述当前目标数据的所述第j个关键词的出现次数;根据公式二确定所述当前目标数据的每个目标数据相似参数,其中,所述公式二为:Ai=Σj=1nWj,i,]]>其中,Ai为所述当前目标数据的第i个目标数据相似参数,n为所述预设数量;根据公式三,确定所述当前目标数据的最终相似参数,其中,所述公式三为:Bi=1,Ai>00,Ai≤0,]]>其中,Bi为所述当前目标数据的最终相似参数从右开始的第i位的值;根据公式四,确定每两个所述目标地址对应的目标数据的综合相似参数,其中,所述公式四为:C=DxorF,其中,D为第一目标数据的最终相似参数,F为第二目标数据的最终相似参数,C为所述第一目标数据和所述第二目标数据的综合相似参数;判断每两个目标数据的综合相似参数中1的个数是否小于等于预设个数,如果是,确定当前两个目标数据相似,否则,确定当前两个目标数据不相似;排除每两个相似的目标数据中的任意一个目标数据。3.根据权利要求1所述的方法,其特征在于,在所述获取至少一个目标地址之前,进一步包括:预先设置目标网站对应的地址解析规则;所述获取至少一个目标地址,包括:根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址。4.根据权利要求3所述的方法,其特征在于,所述预先设置目标网站对应的地址解析规则,包括:确定所述目标网站的地址构建规则;根据所述地址构建规则,设置所述地址解析规则。5.根据权利要求3或4所述的方法,其特征在于,所述根据所述地址解析规则,确定所述目标网站对应的至少一个目标地址,包括:根据所述地址解析规则,解析出所述目标网址对应的至少一个待处理地址;对所述至少一个待处理地址进行排重...
【专利技术属性】
技术研发人员:王利鑫,
申请(专利权)人:山东浪潮云服务信息科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。