【技术实现步骤摘要】
网页分类方法、装置、电子设备及存储介质
本申请涉及计算机应用技术,特别涉及移动互联网、人工智能及深度学习领域的网页分类方法、装置、电子设备及存储介质。
技术介绍
随着移动互联网技术的发展,通过手机等移动设备在浏览器中访问/浏览网页已经是非常广泛流行的用户行为。如果能够对网页进行合理的分类,势必会方便用户对网页进行查找等。但目前的处理方式中,多基于网页标题内容来进行网页分类,准确性较差。
技术实现思路
本申请提供了网页分类方法、装置、电子设备及存储介质。一种网页分类方法,包括:当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;按照所述页面内容图像获取方式获取页面内容图像;根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。一种网页分类装置,包括:分类模块;所述分类模块,用于当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式,按照所述页面内容图像获取方式获取页面内容图像,根据所述页面内容图像,利用预先训练 ...
【技术保护点】
1.一种网页分类方法,包括:/n当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;/n按照所述页面内容图像获取方式获取页面内容图像;/n根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。/n
【技术特征摘要】
1.一种网页分类方法,包括:
当用户访问任一网页时,确定出所述网页对应的页面内容图像获取方式;
按照所述页面内容图像获取方式获取页面内容图像;
根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别。
2.根据权利要求1所述的方法,其中,
所述确定出所述网页对应的页面内容图像获取方式包括:确定出所述网页所属的第一级类别,将所述网页所属的第一级类别对应的页面内容图像获取方式作为所述网页对应的页面内容图像获取方式;其中,预先建立有不同的第一级类别与页面内容图像获取方式之间的对应关系;
所述确定出所述网页所属的类别包括:确定出所述网页所属的第二级类别,每个第一级类别下至少包括两个第二级类别。
3.根据权利要求2所述的方法,其中,所述确定出所述网页所属的第一级类别包括:
根据所述网页的页面布局情况确定出所述网页所属的第一级类别,所述第一级类别包括:图文、图集、视频、小视频、其它。
4.根据权利要求3所述的方法,其中,所述按照所述页面内容图像获取方式获取页面内容图像包括:
若所述网页所属的第一级类别为所述视频或所述小视频,则在所述视频或所述小视频的播放过程中,当每次符合第一预定条件时,则获取当前的页面内容图像;
若所述网页所属的第一级类别为所述图集,则在所述图集的展示过程中,当每次符合第二预定条件时,则获取当前的页面内容图像;
若所述网页所属的第一级类别为所述图文或所述其它,则直接获取页面内容图像。
5.根据权利要求4所述的方法,其中,所述根据所述页面内容图像,利用预先训练得到的分类模型,确定出所述网页所属的类别包括:
当所述网页所属的第一级类别为所述视频或所述小视频或所述图集时,根据所述分类模型分别确定出获取到的各页面内容图像所属的第二级类别,将出现次数最多的第二级类别作为所述网页所属的第二级类别;
当所述网页所属的第一级类别为所述图文或所述其它时,根据所述分类模型确定出获取到的页面内容图像所属的第二级类别,作为所述网页所属的第二级类别。
6.根据权利要求5所述的方法,其中,针对任一页面内容图像,根据所述分类模型确定出所述页面内容图像所属的第二级类别包括:
将所述页面内容图像转换为标准输入数组表示;
将所述标准输入数组表示输入所述分类模型,得到所述页面内容图像所属的第二级类别。
7.根据权利要求6所述的方法,其中,所述将所述页面内容图像转换为标准输入数组表示包括:
将所述页面内容图像按照图像居中等比压缩的方式调整至预设的宽度和高度,其中,若存在未填满区域,则用0进行补全;
根据调整后的页面内容图像中的各像素点的取值生成长度为所述预设的宽度*所述预设的高度的标准输入数组表示。
8.根据权利要求4所述的方法,其中,
所述当每次符合第一预定条件,则获取当前的页面内容图像包括:每间隔预定时长,则获取当前的页面内容图像;
所述当每次符合第二预定条件时,则获取当前的页面内容图像包括:当所展示的图片每次发生变化时,则获取当前的页面内容图像,或者,每间隔预定时长,则获取当前的页面内容图像。
9.根据权利要求2所述的方法,还包括:当用户需要进行历史网页浏览时,将不同历史网页按照所属的类别进行分类展示。
10.根据权利要求9所述的方法,还包括:将所述网页的预定信息存储到历史记录列表中,所述预定信息包括:所述网页的链接地址、所述网页的名称、所述网页的访问时间、所述网页所属的第一级类别以及所述网页所属的第二级类别;
所述将不同历史网页按照所属的类别进行分类展示包括:根据所述历史记录列表,将不同历史网页按照所属的类别进行分类展示。
11.根据权利要求10所述的方法,还包括:当用户访问任一网页时,若确定所述历史记录列表中存储有所述网页的链接地址,则将所存储的所述网页的访问时间更新为当前时间,否则,确定出所述网页对应的页面内容图像获取方式。
12.一种网页分类装置,包括:分类模块;
所述分类模块,用于当用户访问任一网页时,确定出所述...
【专利技术属性】
技术研发人员:王群,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。