The invention discloses a web address confidence evaluation method based on Web page segmentation and crawling. Firstly, the classified Web page links are segmented, the segmented web page content is crawled by script, and the web page content is classified by convolution neural network. The classified accuracy of the segmented web page and the original web page are classified accurately. After subtracting the rate, we get the difference set of web page classification. Then we get the confidence formula of web address by calculating the weight of different segmentation web pages. Then we use script to crawl the links of web pages to be classified and calculate the number of segmentation. Then we put the links with confidence greater than a certain threshold into the link set of classified Web pages to continue to optimize the calculation. The weights of the formula are used. Finally, the confidence level of web crawling is obtained by using the network address confidence algorithm. The method of the invention effectively evaluates the information difference between the web page to be crawled and the content of the original web page, and improves the efficiency of the web page crawling.
【技术实现步骤摘要】
一种基于网页切分爬取的网络地址置信度评估方法
本专利技术属于网页信息内容完整性评估
,特别涉及一种基于网页切分爬取的网络地址置信度评估方法。
技术介绍
爬取网页信息并对网页进行分类对实现人员的行为习惯分析有着重要的作用和意义。传统的网页爬取技术,往往因为页面更新或者网站停止运营,导致无法全面的得到原始网页的信息,已经不能满足社会信息化发展的需求。近年来,针对网页内容更新频繁,研究者提供了相应的解决方法,如切分网页、手工标注等。朱全银、潘舒新等人已有的研究基础包括:李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285;ZhuQuanyin,PanLu,YinYonghuaLiXiang.InfluenceonNormalizationandMagnitudeNormalizationforPriceForecastingofAgriculturalProducts.InformationTechnologyJournal(ITJ).2013.Vol.12(15):3046 ...
【技术保护点】
1.一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,具体步骤如下:(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后使用网络地址置信度算法计算待爬取网页的网络地址置信度。
【技术特征摘要】
1.一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,具体步骤如下:(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后使用网络地址置信度算法计算待爬取网页的网络地址置信度。2.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(1)中得到网页分类差值集的具体步骤如下:(1.1)定义网页地址集、网页分类集;(1.2)对网页地址集中的URL按照“/”进行切分,使用卷积神经网络计算切分后的分类准确率;(1.3)对网页地址集中的URL按照“.”进行切分,使用卷积神经网络计算切分后的分类准确率;(1.4)定义原始网页准确率为1,将步骤(1.2)和步骤(1.3)得到的分类准确率与原始网页准确率相减,得到网页分类差值集。3.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(2)中得到网络地址置信度算法的具体步骤如下:(2.1)定义一级、二级网页信息准确率差集、一级、二级网页权重;(2.2)将一级网页信息准确率集和二级网页信息准确率集中小于0.5的数值修改为0;(2.3)计算一级网页权重;(2.4)计算二级网页权重;(2.5)得到网络地址置信度算法公式。4.根据权利要求3所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(3)中得到待爬取网页的网络地址置信度的具体步骤如下:(3.1)定义待爬取网页地址,统计地址中“/”和“.”的数量;(3.2)使用脚本爬取待爬取网页地址的内容;(3.3)在原始网页无法爬去的情况下,依次按照“/”、“.”对原网页进行切分后,爬取相关网页内容,并统计切分的次数;(3.4)正常获取到网页内容后,将处理后的网页URL加入已分类网页链接集,重新对一级网页权重和二级网页权重进行训练;(3.5)按照步骤(2.5)得到的公式进行计算,得到待爬取网页网络地址置信度。5.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(1)中得到网页分类差值集的详细步骤如下:(1.1)定义WebPage为网页地址集,WebPage={web1,web2,...webi},定义WebCa为网页分类集,WebCa={webca1,1,webca2,2,...,webcai,i},其中,webcai,i为第i个网页的网站类型;(1.2)定义循环变量n用于遍历Webpage,赋初值为1;(1.3)当n<=i时,执行步骤(1.4);否则执行步骤(1.17);(1.4)定义Webn中的分隔符“/”的数量为NUM,将webi按照分隔符“/”切分为WebSp={websp1,websp2,…,websps},其中,s=NUM+1,定义处理后的webi为NWs=websp1+“/”+websp2+…+“/”+websps;(1.5)定义循环变量m用于遍历步骤(1.4)中得到的NWs,赋初值为s;(1.6)当m>1时,执行步骤(1.7);否则执行步骤(1.10);(1.7)使用脚本爬取网页NWm的内容,得到网页内容集webinfo;(1.8)使用卷积神经网络对步骤(1.7)得到的webinfo进行分类,得到分类准确率cp;定义webcan,n的分类准确率为1,得到NWm与webn分类准确率差值ctd=1-cp;(1.9)m=m-1;(1.10)定义Webn中的分隔符“.”的数量为DUM,将webi按照分隔符“.”切分为DWebSp={dwebsp1,dwebsp2,…,dwebspq},其中,q=DUM+1,定义处理后的we...
【专利技术属性】
技术研发人员:朱全银,潘舒新,胡荣林,李翔,周泓,瞿学新,
申请(专利权)人:淮阴工学院,
类型:发明
国别省市:江苏,32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。