当前位置: 首页 > 专利查询>淮阴工学院专利>正文

一种基于网页切分爬取的网络地址置信度评估方法技术

技术编号:19140204 阅读:57 留言:0更新日期:2018-10-13 08:40
本公开发明专利技术了一种基于网页切分爬取的网络地址置信度评估方法,首先对已分类的网页链接进行切分,使用脚本爬取切分后的网页内容,采用卷积神经网络对网页内容进行分类,将切分后的网页分类准确率与原始网页分类准确率相减,得到网页分类差值集,再通过计算不同切分网页的权重,得到网络地址置信度算法公式,接着使用脚本爬取待分类网页链接,并计算切分的数量,将置信度大于一定阈值的网页链接放入已分类网页链接集中继续优化算法公式中的权重,最后使用网络地址置信度算法得出爬取网页的置信度。本发明专利技术方法有效的评估了在对网页进行切分爬取时,待爬取的网页与原始网页内容的信息差异,提高了网页爬取的效率。

A web address confidence evaluation method based on Web page segmentation crawling

The invention discloses a web address confidence evaluation method based on Web page segmentation and crawling. Firstly, the classified Web page links are segmented, the segmented web page content is crawled by script, and the web page content is classified by convolution neural network. The classified accuracy of the segmented web page and the original web page are classified accurately. After subtracting the rate, we get the difference set of web page classification. Then we get the confidence formula of web address by calculating the weight of different segmentation web pages. Then we use script to crawl the links of web pages to be classified and calculate the number of segmentation. Then we put the links with confidence greater than a certain threshold into the link set of classified Web pages to continue to optimize the calculation. The weights of the formula are used. Finally, the confidence level of web crawling is obtained by using the network address confidence algorithm. The method of the invention effectively evaluates the information difference between the web page to be crawled and the content of the original web page, and improves the efficiency of the web page crawling.

【技术实现步骤摘要】
一种基于网页切分爬取的网络地址置信度评估方法
本专利技术属于网页信息内容完整性评估
,特别涉及一种基于网页切分爬取的网络地址置信度评估方法。
技术介绍
爬取网页信息并对网页进行分类对实现人员的行为习惯分析有着重要的作用和意义。传统的网页爬取技术,往往因为页面更新或者网站停止运营,导致无法全面的得到原始网页的信息,已经不能满足社会信息化发展的需求。近年来,针对网页内容更新频繁,研究者提供了相应的解决方法,如切分网页、手工标注等。朱全银、潘舒新等人已有的研究基础包括:李翔,朱全银.联合聚类和评分矩阵共享的协同过滤推荐[J].计算机科学与探索,2014,8(6):751-759;QuanyinZhu,SunqunCao.ANovelClassifier-independentFeatureSelectionAlgorithmforImbalancedDatasets.2009,p:77-82;QuanyinZhu,YunyangYan,JinDing,JinQian.TheCaseStudyforPriceExtractingofMobilePhoneSellOnline.2011,p:282-285;ZhuQuanyin,PanLu,YinYonghuaLiXiang.InfluenceonNormalizationandMagnitudeNormalizationforPriceForecastingofAgriculturalProducts.InformationTechnologyJournal(ITJ).2013.Vol.12(15):3046-3057;QuanyinZhu,JinDing,YonghuaYin,PeiZhou.AHybridApproachforNewProductsDiscoveryofCellPhoneBasedonWebMining.JournalofInformationandComputationalScience(JICS).2012,Vol.9(16):5039-5046;PanS,FanJ,YuS,etal.AMethodofBehaviorEvaluationBasedonWebBrowsingInformation.SmartGridandElectricalAutomation(ICSGEA),2017InternationalConferenceon.IEEE,2017:697-700.朱全银、潘舒新等人申请、公开与授权的相关专利:朱全银,尹永华,严云杨,曹苏群等,一种基于神经网络的多品种商品价格预测的数据预处理方法.中国专利:ZL201210325368.6,2016.06.08;朱全银,胡蓉静,何苏群,周培等.一种基于线性插补与自适应滑动窗口的商品价格预测方法.中国专利:ZL201110423015.5,2015.07.01;朱全银,曹苏群,严云洋,胡蓉静等,一种基于二分数据修补与扰乱因子的商品价格预测方法.中国专利:ZL201110422274.6,2015.07.01;朱全银,辛诚,李翔,潘舒新等,一种基于K-means和LDA双向验证的网络行为习惯聚类方法.中国专利公开号:CN106202480A,2016.12.07;朱全银,辛诚,刘斌,潘舒新等,一种基于分类语料库-关键词词频-记录关联的网络行为习惯量化方法.中国专利公开号CN106202498A,2016.12.07;朱全银,潘舒新,李翔,贾笑颖等,一种多维度的网页浏览行为评估方法.中国专利公开号:CN106886577A,2017.06.23。现有技术分析:卜佳俊、李辉、陈伟等在2009年申请的专利技术专利《基于新闻去重的网页爬虫的构造方法》(中国专利公开号CN101694658B,2012.07.04)提出了爬取网页内容再与测试集进行对比,提高爬取效率;周东在2013年申请的专利技术专利《一种网页爬虫抓取方法及装置》(中国专利公开号CN103336834B,2017.04.12)提出了根据种子数生成网页,从而提高网页爬取的效率;吴羽、黄文恺、李奕宏等人在2017年申请的专利技术专利《基于搜索及网络爬虫的数据抓取方法》(中国专利公开号CN107679085A,2018.02.09)中提出了基于搜索引擎的网页爬取的数据抓取方式,提高了网页爬虫的适应性。虽然上述三种典型的网页爬虫方式都提高了传统的网页爬取效率,但是当原始网页更新,或者原始网页的地址无法访问时,就会导致上述的爬虫方法无法有效的获取网页信息。朱全银、潘舒新、李翔等人在2017年申请的专利技术专利《一种多维度网页浏览行为评估方法》(中国专利公开号CN106886577A,2017.06.23)创造性的提出了一种网页切分的方法,即当原始网页无法访问时,通过逐步切分网页的方式爬取子网页。该方法有效的解决了原始网页无法访问的问题。但是,该方法对原始网页进行切分的时候,可能会导致切分后爬取的网页内容,和原始网页内容存在差异,例如原始网页的网页内容为“军事”,通过切分后的网页内容,可能被分为“综合”。如何区别切分后网页内容与原始网页内容之间的差异,需要一种评估网络地址置信度的算法,对切分后的网页内容进行量化,方便科研人员进行后续的研究,同时提高网页爬取的效率,剔除与原始网页差异过大的网页内容。卷积神经网络:卷积神经网络(ConvolutionalNeuralNetwork,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理和文本分类有出色表现。卷积神经网络由一个或多个卷积层和顶端的全连通层(对应经典的神经网络)组成,同时也包括关联权重和池化层(poolinglayer)。这一结构使得卷积神经网络能够利用输入数据的二维结构。与其他深度学习结构相比,卷积神经网络在图像和语音识别方面能够给出更好的结果。这一模型也可以使用反向传播算法进行训练。相比较其他深度、前馈神经网络,卷积神经网络需要考量的参数更少,使之成为一种颇具吸引力的深度学习结构。
技术实现思路
专利技术目的:针对现有技术中存在的原始网页已经被网站管理员删除,无法爬取到指定内容;对原始网页切分爬取,网页内容发生改变,无法准确反映原始网页的内容的问题,本专利技术提出一种通过卷积神经网络,为研究人员在爬取网页和切分网页时提供与原始网页内容的对比结果的基于网页切分爬取的网络地址置信度评估方法。技术方案:为解决上述技术问题,本专利技术提供一种基于网页切分爬取的网络地址置信度评估方法,具体步骤如下:(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新本文档来自技高网
...

【技术保护点】
1.一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,具体步骤如下:(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后使用网络地址置信度算法计算待爬取网页的网络地址置信度。

【技术特征摘要】
1.一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,具体步骤如下:(1)先对网页链接进行分类,然后对已分类的网页链接按照“/”和“.”进行切分得到子网页链接,爬取子网页链接的网页信息,采用卷积神经网络对子网页链接进行分类,将子网页链接分类准确率与原始网页分类准确率相减得出网页分类差值集;(2)将步骤(1)中网页分类差值低于0.5的数据置零,分别计算按照“/”和“.”切分的网页准确率的平均数,然后得到网络地址置信度权重F1和F2,将计算后的F1和F2带入网络地址置信度算法;(3)统计待爬取的网页链接中“/”和“.”的数量,依次采用脚本访问待爬取网页,分别统计能够正常访问网页时“/”和“.”的数量,将处理后的网页链接放入已分类网页地址集,重新计算F1和F2的值,最后使用网络地址置信度算法计算待爬取网页的网络地址置信度。2.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(1)中得到网页分类差值集的具体步骤如下:(1.1)定义网页地址集、网页分类集;(1.2)对网页地址集中的URL按照“/”进行切分,使用卷积神经网络计算切分后的分类准确率;(1.3)对网页地址集中的URL按照“.”进行切分,使用卷积神经网络计算切分后的分类准确率;(1.4)定义原始网页准确率为1,将步骤(1.2)和步骤(1.3)得到的分类准确率与原始网页准确率相减,得到网页分类差值集。3.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(2)中得到网络地址置信度算法的具体步骤如下:(2.1)定义一级、二级网页信息准确率差集、一级、二级网页权重;(2.2)将一级网页信息准确率集和二级网页信息准确率集中小于0.5的数值修改为0;(2.3)计算一级网页权重;(2.4)计算二级网页权重;(2.5)得到网络地址置信度算法公式。4.根据权利要求3所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(3)中得到待爬取网页的网络地址置信度的具体步骤如下:(3.1)定义待爬取网页地址,统计地址中“/”和“.”的数量;(3.2)使用脚本爬取待爬取网页地址的内容;(3.3)在原始网页无法爬去的情况下,依次按照“/”、“.”对原网页进行切分后,爬取相关网页内容,并统计切分的次数;(3.4)正常获取到网页内容后,将处理后的网页URL加入已分类网页链接集,重新对一级网页权重和二级网页权重进行训练;(3.5)按照步骤(2.5)得到的公式进行计算,得到待爬取网页网络地址置信度。5.根据权利要求1所述的一种基于网页切分爬取的网络地址置信度评估方法,其特征在于,所述步骤(1)中得到网页分类差值集的详细步骤如下:(1.1)定义WebPage为网页地址集,WebPage={web1,web2,...webi},定义WebCa为网页分类集,WebCa={webca1,1,webca2,2,...,webcai,i},其中,webcai,i为第i个网页的网站类型;(1.2)定义循环变量n用于遍历Webpage,赋初值为1;(1.3)当n<=i时,执行步骤(1.4);否则执行步骤(1.17);(1.4)定义Webn中的分隔符“/”的数量为NUM,将webi按照分隔符“/”切分为WebSp={websp1,websp2,…,websps},其中,s=NUM+1,定义处理后的webi为NWs=websp1+“/”+websp2+…+“/”+websps;(1.5)定义循环变量m用于遍历步骤(1.4)中得到的NWs,赋初值为s;(1.6)当m>1时,执行步骤(1.7);否则执行步骤(1.10);(1.7)使用脚本爬取网页NWm的内容,得到网页内容集webinfo;(1.8)使用卷积神经网络对步骤(1.7)得到的webinfo进行分类,得到分类准确率cp;定义webcan,n的分类准确率为1,得到NWm与webn分类准确率差值ctd=1-cp;(1.9)m=m-1;(1.10)定义Webn中的分隔符“.”的数量为DUM,将webi按照分隔符“.”切分为DWebSp={dwebsp1,dwebsp2,…,dwebspq},其中,q=DUM+1,定义处理后的we...

【专利技术属性】
技术研发人员:朱全银潘舒新胡荣林李翔周泓瞿学新
申请(专利权)人:淮阴工学院
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1