网页内容识别方法、装置、服务器制造方法及图纸

技术编号:18302132 阅读:27 留言:0更新日期:2018-06-28 12:02
本发明专利技术公开了一种网页内容识别方法,所述网页内容识别方法包括确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。本发明专利技术还提供一种网页内容识别装置及服务器。本发明专利技术的网页内容识别方法、装置及服务器将网页区块的视觉特征转换为训练工具能学习的特征向量,从而利用训练工具生成内容识别模型,进而能提高识别网页内容的效率、准确度。

Web content identification method, device, server

The present invention discloses a method for identifying the content of a web page, which includes determining at least one training site, collecting a plurality of training pages within each training site, obtaining visual features of a block corresponding to the selected content within each training page, and processing the visual features for data processing. The feature vector is used, and the recognition model of the selected content is established by using the training tool according to the feature vector. The invention also provides a web page content identification device and a server. The content recognition method, device and server of the web page converts the visual features of the web block into the feature vector that the training tool can learn, thus making use of the training tool to generate the content recognition model, and thus can improve the efficiency and accuracy of the content of the web page recognition.

【技术实现步骤摘要】
网页内容识别方法、装置、服务器
本专利技术涉及一种互联网
,尤其涉及一种网页内容识别方法、装置、服务器。
技术介绍
目前,随着互联网的迅速发展,网络上的信息量剧增,对网页的内容进行识别的要求也日趋迫切。现有的网页内容识别方法针对网页内容的视觉特征,采用样本统计的方式获取网页内容的识别规则,且此方法需不停地反馈调整网页内容的识别规则,训练时间长,因此,识别效率低且准确度不高。
技术实现思路
有鉴于此,本专利技术提供一种网页内容识别方法、装置、服务器,能提高识别网页内容的效率、准确度。本专利技术实施例提供了一种网页内容识别方法,确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。本专利技术还提供一种网页内容识别装置,其包括数据采集模块、视觉特征获取模块、数据处理模块、模型建立模块。数据采集模块用于确定至少一个训练站点,并在每个训练站点内采集多个训练网页。视觉特征获取模块用于获取每个训练网页内被选定的内容对应的视觉特征。数据处理模块用于对所述视觉特征进行数据处理得到特征向量。模型建立模块用于利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。本专利技术还提供一种服务器,包括网页内容识别装置。网页内容识别装置包括数据采集模块、视觉特征获取模块、数据处理模块、模型建立模块。数据采集模块用于确定至少一个训练站点,并在每个训练站点内采集多个训练网页。视觉特征获取模块用于获取每个训练网页内被选定的内容对应的视觉特征。数据处理模块用于对所述视觉特征进行数据处理得到特征向量。模型建立模块用于利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。本专利技术的网页内容识别方法、装置及服务器将网页区块的视觉特征转换为训练工具能学习的特征向量,从而利用训练工具生成内容识别模型,进而能提高识别网页内容的效率、准确度。为让本专利技术的上述和其他目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附图式,作详细说明如下。附图说明图1示出了一种服务器的结构框图;图2为本专利技术第一实施例的网页内容识别方法的流程示意图;图3为本专利技术第二实施例的网页内容识别方法的流程示意图;图4为如图3所示的网页内容识别方法的界面示意图;图5为本专利技术第三实施例的网页内容识别方法的流程示意图;图6为本专利技术第四实施例的网页内容识别装置的结构示意图;图7为本专利技术第五实施例的网页内容识别装置的结构示意图;图8为本专利技术第六实施例的服务器的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术各实施例所提供的网页内容识别方法,可应用于如图1所示的服务器。如图1所示,服务器包括:存储器101、处理器102以及网络模块103。可以理解,图1所示的结构仅为示意,服务器还可包括比图1中所示更多或者更少的组件,或者具有与图1所示不同的配置。图1中所示的各组件可以采用硬件、软件或其组合实现。另外,本专利技术实施例中的服务器还可以包括多个具体不同功能的服务器。存储器101可用于存储软件程序以及模块,如本专利技术实施例中的网页内容识别方法及系统对应的程序指令/模块,处理器102通过运行存储在存储器101内的软件程序以及模块,从而执行各种功能应用以及数据处理,即实现本专利技术实施例中的网页内容识别方法及系统。存储器101可包括高速随机存储器,还可包括非易失性存储器,如一个或者多个磁性存储装置、闪存、或者其他非易失性固态存储器。在一些实例中,存储器101可进一步包括相对于处理器102远程设置的存储器,这些远程存储器可以通过网络连接至服务器。进一步地,上述软件程序以及模块还可包括:操作系统121以及服务模块122。其中操作系统121,例如可为LINUX、UNIX、WINDOWS,其可包括各种用于管理系统任务(例如内存管理、存储设备控制、电源管理等)的软件组件和/或驱动,并可与各种硬件或软件组件相互通讯,从而提供其他软件组件的运行环境。服务模块122运行在操作系统121的基础上,并通过操作系统121的网络服务监听来自网络的请求,根据请求完成相应的数据处理,并返回处理结果给终端。也就是说,服务模块122用于向终端提供网络服务。网络模块103用于接收以及发送网络信号。上述网络信号可包括无线信号或者有线信号。在一个实例中,上述网络信号为有线网络信号。此时,网络模块103可包括处理器、随机存储器、转换器、晶体振荡器等元件。第一实施例图2为本专利技术第一实施例提供的网页内容识别方法的流程图。本实施例为服务器通过网络所执行的网页内容识别方法。如图2所示,本实施例的网页内容识别方法可包括以下步骤:步骤S21:确定至少一个训练站点,并在每个训练站点内采集多个训练网页;具体地,例如可以但不限于根据训练站点的流行度确定每个训练站点采集的训练网页的数量,越流行的站点采集的训练网页的数量越多,从而使得训练工具能学习到访问量大的网页的内容对应的视觉特征,进而增加网页识别的准确率。步骤S22:获取每个训练网页内被选定的内容对应的区块的视觉特征;具体地,区块的视觉特征即为能够表示该网页区块视觉层面的主要特征,其可以但不限于为区块的长、宽、高、区块字体大小、网页标签等等。步骤S23:对视觉特征进行数据处理得到特征向量;为了得到可被训练工具识别的特征向量,需对视觉特征进行处理。具体地,若视觉特征包括数值型特征,则在向量中占一位表示一种数值型特征。具体可以是:对于每一种数值型特征进行数值统计,再等量的划分成若干份,例如10份,分别映射到0~0.1,0.1~0.2,0.2~0.3,0.3~0.4,0.4~0.5,0.5~0.6,0.6~0.7,0.7~0.8,0.8~0.9,0.9~1.0这10个区间中。若视觉特征包括非数值型特征,则以横向的one-hotrepresentation模式表示非数值型特征。其中,one-hotrepresentation是一种最简单的词向量表示方式,即用一个长向量来表示一个词,向量的长度为词典的大小,向量的分量只有一个“1”,其它全为“0”,“1”的位置对应该词在词典中的位置。步骤S24:利用训练工具根据特征向量建立被选定的内容的识别模型。具体地,训练工具可以但不限于为迭代的决策树(GradientBoostingDecisionTree,GBDT)训练工具,也可以为线性回归训练工具等其它机器训练工具。具体地,根据特征向量建立被选定的内容的识别模型即建立网页的特征向量与网页内容例如标题、价格等等之间的对应关系。本专利技术的网页内容识别方法将网页区块的视觉特征转换为训练工具能学习的特征向量,从而利用训练工具生成内容识别模型,从而能提高识别网页内容的效率、准确度。第二实施例图3为本专利技术第二实施例的网页内容识别方法的流程示意图。图4为如图3所示的网页内容识别方法的界面示意图。请同时参考图3与图4,网页内容识别方法包括:步骤S22本文档来自技高网...
网页内容识别方法、装置、服务器

【技术保护点】
1.一种网页内容识别方法,其特征在于,所述网页内容识别方法包括:确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。

【技术特征摘要】
1.一种网页内容识别方法,其特征在于,所述网页内容识别方法包括:确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。2.如权利要求1所述的网页内容识别方法,其特征在于,确定至少一个训练站点,并在每个训练站点内采集多个训练网页的步骤包括:根据所述训练站点的流行度确定每个训练站点采集的训练网页的数量。3.如权利要求1所述的网页内容识别方法,其特征在于,获取每个训练网页内被选定的内容对应的区块的视觉特征的步骤包括:选定训练网页内需标注的内容;解析所述需标注的内容的XPath;以及根据所述XPath查找被选定的内容对应的区块的视觉特征。4.如权利要求1所述的网页内容识别方法,其特征在于,所述视觉特征包括数值型特征;对所述视觉特征进行数据处理得到特征向量的步骤包括:在向量中占一位表示一种所述数值型特征。5.如权利要求1所述的网页内容识别方法,其特征在于,所述视觉特征包括非数值型特征;对所述视觉特征进行数据处理得到特征向量的步骤包括:以横向的one-hotrepresentation模式表示所述非数值型特征。6.如权利要求1所述的网页内容识别方法,其特征在于,所述训练工具为GBDT训练工具。7.如权利要求1所述的网页内容识别方法,其特征在于,所述网页内容识别方法还包括:接收网页的特征标识,并根据所述特征标识查找到待识别网页;将所述待识别网页的所有区块的视觉特征转换为特征向量;以及利用识别模型根据所述待识别网页的特征向量识别出待识别网页中相应的内容的XPath。8.如权利要求7所述的网页内容识别方法,其特征在于,所述网页内容识别方法还包括:根据所述待识别网页中相应的内容的XPath抽取所述待识别网页的相应内...

【专利技术属性】
技术研发人员:赵铭鑫卓居超
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1