【技术实现步骤摘要】
反爬虫方法、装置、计算机设备和存储介质
[0001]本申请涉及反爬虫
,特别是涉及一种反爬虫方法、装置、计算机设备和存储介质。
技术介绍
[0002]随着大数据时代的来临,无论是个人还是企业,对于数据的需求都越来越大。这种需求不仅促进了数据采集技术的日益完善,也使得网络爬虫日益猖獗。
[0003]目前,我国医疗行业正在向着现代化、信息化的方向发展,大数据建设已经逐渐成为医疗领域中不可或缺的重要部分。
[0004]但是,医疗领域中有很多涉及个人隐私的医疗信息,因此亟需可靠有效地反爬虫措施来防止个人隐私的泄露。
技术实现思路
[0005]基于此,有必要针对上述技术问题,提供一种能够有效地反爬虫、防止个人隐私泄露的反爬虫方法、装置、计算机设备和存储介质。
[0006]一种反爬虫方法,该方法包括:
[0007]利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;
[0008]根据目标标签获取敏感信息对应的文本数据;
[0009]对文 ...
【技术保护点】
【技术特征摘要】
1.一种反爬虫方法,其特征在于,所述方法包括:利用预先训练的目标识别模型对目标网页中的各标签进行识别,得到敏感信息所在的目标标签;根据所述目标标签获取所述敏感信息对应的文本数据;对所述文本数据进行转换处理得到图像数据,并采用所述图像数据替换所述文本数据。2.根据权利要求1所述的方法,其特征在于,所述对所述文本数据进行转换处理得到图像数据,并采用所述图像数据替换所述文本数据,包括:利用预先设置的转换脚本对所述文本数据进行转换处理,得到所述图像数据;在所述文本数据对应的网页节点上添加所述图像数据,并删除所述文本数据。3.根据权利要求1所述的方法,其特征在于,在所述利用预先训练的目标识别模型对目标网页中的各标签进行识别之前,所述方法还包括:获取第一样本集;所述第一样本集包括多个第一样本和各所述第一样本对应的标注;所述标注用于表征所述第一样本是否包含敏感信息;基于所述第一样本集进行神经网络模型的训练,得到中间识别模型;利用所述中间识别模型对所述多个第一样本进行筛选得到多个第二样本,并根据所述多个第二样本确定第二样本集;基于所述第二样本集进行所述中间识别模型的训练,得到所述目标识别模型。4.根据权利要求3所述的方法,其特征在于,所述获取第一样本集,包括:获取多个包含敏感信息的第一样本;构建多个与所述包含敏感信息的第一样本相似但不包含敏感信息的第一样本;根据多个所述包含敏感信息的第一样本和多个所述不包含敏感信息的第一样本得到所述第一样本集。5.根据权利要求3所述的方法,其特征在于,所述利用所述中间识别模型对所述多个第一样本进行筛选得到多个第二样本,包括:将所述多个第一样本输入到所述中间识别模型中,得到所述中间识别模型输出的各所述第一样本对应的第一识别结果;对多个所述第一识别结果进行聚类分析,得到聚类分析结果;所述聚类分析结果用于表征各所述第一样本与聚类中心之间的距离;筛选出所述距离小于预设距离阈值的第一样本作为所述第二样本。6.根据权利要求3所述的方法,其特征在于,所述第一样本集包括训练样本集和测试样本集;所述基于所述第一样本集进行神经网络模型的训练,得到中间识别模型,包括:基于所述训练样本集进行神经网络模型的训练,得到初始识别模型;基于所述测试样本集对所述初始识别模型进行测试,得到测试...
【专利技术属性】
技术研发人员:谢国栋,王余超,
申请(专利权)人:武汉联影医疗科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。