【技术实现步骤摘要】
本专利技术涉及互联网领域,特别是涉及一种网页内容识别方法和装置。
技术介绍
互联网上每秒钟都有大量的网页产生,这些网页又由各种内容构成,用户要在海量内容找到有价值的内容(有效内容),其实是相当有难度的。为此,需要有一种方法,可以智能地识别出网页中的有效内容部分,以推介给用户,更好地提高用户的阅读体验。
技术实现思路
有鉴于此,本专利技术实施例提供一种网页内容识别方法和装置,智能地识别出海量网页中的有效内容。为了达到上述目的,本专利技术实施例提供的一种网页内容识别方法,包括记录下每个用户对网址地址中网页模块的标记行为;检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将记录的被最多用户标记过的内容模块作为该网页地址的有效内容;否则检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。为了达到上述目的,本专利技术实施例提供的网页内容识别装置,包括记录模块,用于记录下每个用户对网址地址 ...
【技术保护点】
一种网页内容识别方法,其特征在于,包括:记录下每个用户对网址地址中网页模块的标记行为;检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将所述网页地址中被最多用户标记过的内容模块作为所述网页地址的有效内容;否则检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。
【技术特征摘要】
1.一种网页内容识别方法,其特征在于,包括 记录下每个用户对网址地址中网页模块的标记行为; 检测当前用户所请求的网页地址是否被数量达到预定阈值的用户标记过,是则将所述网页地址中被最多用户标记过的内容模块作为所述网页地址的有效内容;否则 检查网页地址的上一级网址以及所述上一级网址所具有的其他子网址是否被数量达到用户数阈值用户标记过,直至到达顶级域名;是则将所述网页地址的上一级网址以及该上一级网址所具有的其他子网址中被最多用户标记过的内容模块作为网页地址对应的有效内容。2.如权利要求I所述的方法,其特征在于,所述记录下每个用户对网址地址中网页模块的标记行为包括 记录下用户所标记的网页内容对应DOM节点信息。3.如权利要求2所述的方法,其特征在于,所述记录下用户所标记的网页内容对应DOM节点信息包括 记录用户所标记的网页内容对应的一个或者一组XPath信息。4.如权利要求2或3所述的方法,其特征在于,所述将记录的被最多用户标记过的内容模块作为该网页地址的有效内容包括 将所述网页地址中被数量最多的用户标记过的一个或多个DOM节点...
【专利技术属性】
技术研发人员:张戈,徐建忠,
申请(专利权)人:北京易云剪客科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。