【技术实现步骤摘要】
内容获取方法、装置、电子设备及存储介质
[0001]本申请涉及互联网
,尤其涉及一种内容获取方法、装置、电子设备及存储介质。
技术介绍
[0002]目前,互联网的飞速发展为人们的工作和生活提供了便利。用户可以根据需求在互联网中搜索想要获取的内容。相关技术中,可以对网站进行全量数据采集或部分数据采集,并使用人工方式进行过滤,得到用户想要获取的内容。然而,该方式效率较低。
技术实现思路
[0003]为了解决上述技术问题或者至少部分地解决上述技术问题,本申请提供了一种内容获取方法、装置、电子设备及存储介质。
[0004]根据本申请的第一方面,提供了一种内容获取方法,包括:
[0005]获取目标型内容的特征信息和所述目标型内容对应的原始采集路径;
[0006]根据所述目标型内容的特征信息,从所述原始采集路径中采集数据;
[0007]基于所述目标型内容的特征信息,判断采集到的数据是否属于所述目标型内容,并获取属于所述目标型内容的数据。
[0008]可选的,所述目标型内容包括 ...
【技术保护点】
【技术特征摘要】
1.一种内容获取方法,其特征在于,所述方法包括:获取目标型内容的特征信息和所述目标型内容对应的原始采集路径;根据所述目标型内容的特征信息,从所述原始采集路径中采集数据;基于所述目标型内容的特征信息,判断采集到的数据是否属于所述目标型内容,并获取属于所述目标型内容的数据。2.根据权利要求1所述的方法,其特征在于,所述目标型内容包括多种类型,不同类型的目标型内容对应不同的特征信息;所述基于所述目标型内容的特征信息,判断采集到的数据是否属于所述目标型内容,包括:如果基于所述多种类型的目标型内容分别对应的特征信息,确定采集到的数据属于所述多种类型的目标型内容中的一种,则确定采集到的数据属于所述目标型内容,并确定采集到的数据所属的类型;如果基于所述多种类型的目标型内容分别对应的特征信息,确定采集到的数据不属于所述多种类型的目标型内容中的任意一种,则确定采集到的数据不属于所述目标型内容。3.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取目标数据源,从所述目标数据源中随机采集数据,并获取采集到的待识别数据对应的待识别采集路径;基于所述目标型内容的特征信息,判断所述待识别数据是否属于所述目标型内容;如果所述待识别数据属于所述目标型内容,则将所述待识别采集路径确定为所述目标型内容对应的原始采集路径。4.根据权利要求1所述的方法,其特征在于,所述方法还包括:获取目标搜索结果,基于所述目标型内容的特征信息,判断所述目标搜索结果是否属于所述目标型内容;如果所述目标搜索结果属于所述目标型内容,则将所述目标搜索结果对应的路径确定为所述目标型内容对应的原始采集路径。5.根据...
【专利技术属性】
技术研发人员:郑伟,陈永飞,
申请(专利权)人:山东库睿科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。