The present invention discloses a method for identifying the content of a web page, which includes determining at least one training site, collecting a plurality of training pages within each training site, obtaining visual features of a block corresponding to the selected content within each training page, and processing the visual features for data processing. The feature vector is used, and the recognition model of the selected content is established by using the training tool according to the feature vector. The invention also provides a web page content identification device and a server. The content recognition method, device and server of the web page converts the visual features of the web block into the feature vector that the training tool can learn, thus making use of the training tool to generate the content recognition model, and thus can improve the efficiency and accuracy of the content of the web page recognition.
【技术实现步骤摘要】
网页内容识别方法、装置、服务器
本专利技术涉及一种互联网
,尤其涉及一种网页内容识别方法、装置、服务器。
技术介绍
目前,随着互联网的迅速发展,网络上的信息量剧增,对网页的内容进行识别的要求也日趋迫切。现有的网页内容识别方法针对网页内容的视觉特征,采用样本统计的方式获取网页内容的识别规则,且此方法需不停地反馈调整网页内容的识别规则,训练时间长,因此,识别效率低且准确度不高。
技术实现思路
有鉴于此,本专利技术提供一种网页内容识别方法、装置、服务器,能提高识别网页内容的效率、准确度。本专利技术实施例提供了一种网页内容识别方法,确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。本专利技术还提供一种网页内容识别装置,其包括数据采集模块、视觉特征获取模块、数据处理模块、模型建立模块。数据采集模块用于确定至少一个训练站点,并在每个训练站点内采集多个训练网页。视觉特征获取模块用于获取每个训练网页内被选定的内容对应的视觉特征。数据处理模块用于对所述视觉特征进行数据处理得到特征向量。模型建立模块用于利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。本专利技术还提供一种服务器,包括网页内容识别装置。网页内容识别装置包括数据采集模块、视觉特征获取模块、数据处理模块、模型建立模块。数据采集模块用于确定至少一个训练站点,并在每个训练站点内采集多个训练网页。视觉特征获取模块用于获取每个训练网页内被选定的内容对 ...
【技术保护点】
1.一种网页内容识别方法,其特征在于,所述网页内容识别方法包括:确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。
【技术特征摘要】
1.一种网页内容识别方法,其特征在于,所述网页内容识别方法包括:确定至少一个训练站点,并在每个训练站点内采集多个训练网页;获取每个训练网页内被选定的内容对应的区块的视觉特征;对所述视觉特征进行数据处理得到特征向量;以及利用训练工具根据所述特征向量建立所述被选定的内容的识别模型。2.如权利要求1所述的网页内容识别方法,其特征在于,确定至少一个训练站点,并在每个训练站点内采集多个训练网页的步骤包括:根据所述训练站点的流行度确定每个训练站点采集的训练网页的数量。3.如权利要求1所述的网页内容识别方法,其特征在于,获取每个训练网页内被选定的内容对应的区块的视觉特征的步骤包括:选定训练网页内需标注的内容;解析所述需标注的内容的XPath;以及根据所述XPath查找被选定的内容对应的区块的视觉特征。4.如权利要求1所述的网页内容识别方法,其特征在于,所述视觉特征包括数值型特征;对所述视觉特征进行数据处理得到特征向量的步骤包括:在向量中占一位表示一种所述数值型特征。5.如权利要求1所述的网页内容识别方法,其特征在于,所述视觉特征包括非数值型特征;对所述视觉特征进行数据处理得到特征向量的步骤包括:以横向的one-hotrepresentation模式表示所述非数值型特征。6.如权利要求1所述的网页内容识别方法,其特征在于,所述训练工具为GBDT训练工具。7.如权利要求1所述的网页内容识别方法,其特征在于,所述网页内容识别方法还包括:接收网页的特征标识,并根据所述特征标识查找到待识别网页;将所述待识别网页的所有区块的视觉特征转换为特征向量;以及利用识别模型根据所述待识别网页的特征向量识别出待识别网页中相应的内容的XPath。8.如权利要求7所述的网页内容识别方法,其特征在于,所述网页内容识别方法还包括:根据所述待识别网页中相应的内容的XPath抽取所述待识别网页的相应内...
【专利技术属性】
技术研发人员:赵铭鑫,卓居超,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东,44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。