当前位置: 首页 > 专利查询>武汉大学专利>正文

一种基于视觉特征提取的网页传感信息块判决方法技术

技术编号:14420951 阅读:228 留言:0更新日期:2017-01-12 23:17
本发明专利技术的目的是提供一种基于视觉特征提取的网页传感信息块判决方法。首先对网页内容进行预处理,提取网页源代码的标签结构树和截图保存集合;根据预处理得到的两个集合,对网页内容进行有效分割,控制网页的分割粒度,使其最大限度匹配传感信息块的粒度大小;最后,对分割后的所有网页数据块进行视觉特征分析,提取特征向量,利用分类器实现网页传感信息块的判决。本发明专利技术可以实现网页传感信息块的自动判决,并根据判决结果进一步为网页传感信息量的有效评价提供解决方案。

【技术实现步骤摘要】

技术介绍
当前,物联网技术正在蓬勃发展,越来越多的传感器开始进入人们的日常生活。面对数以亿计的物联网数据,如何正确搜索以期应用已经成为一个重要的研究课题。当前,大量传感器数据仍然选择以上传至因特网的方式提供给用户,因此,正确识别出包含传感器数据信息的网页内容,将成为物联网搜索工作的一项重要前提。目前,因特网页采用了视频、图片、表格和图例等表现形式来展现传感器的数据信息。对一张未知网页而言,我们将以何种手段来识别出网页中传感器信息的存在,并准确获取所包含传感信息的相关情况,例如传感信息的类型,位置等等,这将为评价网页的传感信息量提供重要依据。传感信息自动识别准确率的保证,也将大大减轻人工判断的工作压力,可以更加有效地实现网页传感信息量的计算,对于基于网页进行的物联网传感信息搜索具有重要意义。
技术实现思路
为了解决上述的研究缺口,本专利技术提供一种基于视觉特征提取的网页传感信息块判决方法,目的在于依据网页中的DOM树结构以及视觉特征来提取网页数据块的相关特征,对数据块是否包含传感信息进行判断。本专利技术的目的是这样实现的:(1)某些非传感信息块也存在视觉变化的情况,例如某些广告信息,滚动信息等等,但他们的变化往往是已知地,在有限的几种信息之中来回播放,而传感信息往往实时采集上传,一切内容都以当前实际情况为准,因此是未知的。据此,选择一段合适长度的时间内截取多张网页图片,综合分析不同截图之间的变化情况,可以增加判断的准确性。(2)根据不同网页数据块的截图变化信息,可以对数据的传感信息包含情况进行一定分析。通常,根据传感信息块的类型不同,往往具有不同的变化特性,例如:由于光照等环境因素的影响,网络摄像头在一段时间内采集的两张图像往往所有像素点都会发生变化,而以表格形式表示的温度,湿度环境信息的数据内容,则会在固定位置的像素点发生明显规律性的变化。提取网页数据块的视觉信息,包括像素点变化值的大小,变化像素点的数量,位置等等,都将为传感信息的判断提供辅助依据。(3)传感信息块通常在网页中以图表等特定形式出现,合理设计网页分割粒度,可以有效实现传感信息块的检测,同时为未来进行传感数据的提取提供更精准的输入条件。依据html标签类型,不同标签对之间的相对深度信息和视觉映射情况三个条件,可以在网页分割过程中有效适应传感信息块的分割粒度,提高分割的精度和有效性。本专利技术的具体技术方案如下:一种基于视觉特征提取的网页传感信息块判决方法,先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;步骤2:自适应传感粒度的网页分割;步骤3:分割后网页数据块的视觉特征提取;步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。所述步骤1的网页预处理过程包括:提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;将所有经过父子留存判断后保留的节点再次进行结构分析,对于留存的直系节点对,依次对每一层后代节点与直系根节点的取舍判断进行判断,判断过程根据后代节点的数量分为两类展开:当同层后代节点仅余一个,只需对后代节点的传感特征包含情况进行再次判断,当确认后代节点包含传感特征后,即决定舍弃根节点;当同层后代节点各自所包含信息的数据类型相同或视觉样式的表现符合预设的相似度判断准则时,保留该后代节点群。所述步骤3的分割后网页数据块的视觉特征提取,是针对截图内发生变化的像素点,设置网页数据块的视觉特征,包括变化数量、变化幅度和位置分布。所述步骤4的传感信息块的判断过程为:利用SVM分类器,将步骤3中获取的视觉特征的特征向量输入训练好的分类器,即得到判决结果;依据判决需求,可以分别选择二分类器和多分类器,二分类器判断该数据库是否为传感信息块,多分类器进一步对信息块的表达类型进行判断,将其分类为图片,表格抑或曲线。所述步骤2,对父子节点对的取舍判断过程中,子节点的传感特征包含情况有两个判断依据:1)标签名称;2)依据关键词匹配方法,对标签的正文内容进行提取分析。以径向基函数作为SVM分类器的核函数。本专利技术的优势在于:采用由html标签对反映射DOM树内结构信息和网页视觉信息结合的方法,自适应控制网页分割算法的分割粒度,使得分割后的数据块更有效接近传感信息块的真实情况。同时,分析预定时间轴上不同时间点采集网页图片间的变化,提取变化发生像素点的视觉信息,包括数量,变化幅度以及位置分布等,利用分类器有效实现传感信息块的判决。附图说明图1是本专利技术的总框图。图2是本专利技术中网页截图存取时间分布图。图3是本专利技术中网页分割算法父子节点对取舍流程图。图4是本专利技术中网页分割算法直系节点对取舍流程图。图5是本专利技术中网页分割算法说明示意图。图6是本专利技术中视觉特征项细节图。具体实施方式为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述。本判决方法的实现过程如图1所示,对待判决的网页完成预处理后,根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决。总的来说,本专利技术的主要实现方法包括以下几部分内容:步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合。步骤2:自适应传感粒度的网页分割。步骤3:分割后网页数据块的视觉特征提取。步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。具体实施方案包括:1、网页预处理设计网页截图提取的时间点如图2所示,截取10张图片,大致提取了2天内不同时间间隔内的网页截图数据。提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,主要包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。2、自适应传感粒度的网页分割自适应传感粒度的网页分割算法主要分为两个步骤:父子节点对的取舍判断和第一步后留下节点中直系节点对之间的取舍判断。对父子节点而言,取舍判断的流程如图3所示。首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域,子节点的传感特征包含情况以及视觉区域大小几个点作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点间均具有较高本文档来自技高网...
一种基于视觉特征提取的网页传感信息块判决方法

【技术保护点】
一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;步骤2:自适应传感粒度的网页分割;步骤3:分割后网页数据块的视觉特征提取;步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。

【技术特征摘要】
1.一种基于视觉特征提取的网页传感信息块判决方法,其特征在于:先对待判决的网页进行预处理;然后根据处理后提取的参数信息实现网页分割;接着对分割后得到的网页数据块依次提取特征并进行最后判决;具体包括以下步骤:步骤1:网页预处理,提取待检测标签集合以及预定时间点网页截图集合;步骤2:自适应传感粒度的网页分割;步骤3:分割后网页数据块的视觉特征提取;步骤4:依据特征提取的结果,利用分类器对网页数据块进行判决,实现对传感信息块的判断以及信息块类型的判断。2.根据权利要求1所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于;所述步骤1的网页预处理过程包括:提取网页源代码,解析出所有可视化html标签存入标签集合,提取标签对应的DOM树结构信息和视觉信息,包括DOM树父子节点对应关系,节点深度信息,节点视觉位置及大小信息。3.根据权利要求2所述的一种基于视觉特征提取的网页传感信息块判决方法,其特征在于;所述步骤2的自适应传感粒度的网页分割过程包括父子节点对的取舍判断和取舍后留下节点中直系节点对之间的取舍判断;对父子节点对的取舍判断过程包括:首先根据子节点数量进行分类判断,对仅含一个子节点的节点对而言,依次取父子节点的重叠区域、子节点的传感特征包含情况以及视觉区域大小作为判断依据;对于包含多个子节点的节点对而言,只要有子节点显现出传感特征,即选择保留子节点,反之需对子节点之间的相似情况进行判断,如果该节点对中所有子节点所包含的信息内容或视觉样式表现一致,则选择保留子节点,否则舍弃子节点;将所有经过父子留存判断后保留的节点再次进行结构...

【专利技术属性】
技术研发人员:李德识刘鸣柳陈健
申请(专利权)人:武汉大学
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1