【技术实现步骤摘要】
属性识别方法、装置及电子设备
[0001]本申请涉及互联网
,具体而言,本申请涉及一种属性识别方法、装置及电子设备。
技术介绍
[0002]随着互联网技术的迅速发展,网络成为大量信息的载体。为了有效地提取并利用网络信息,定向抓取相关网页资源的爬虫应运而生。通常情况下,爬虫是一个自动提取网页的程序,其根据既定的抓取目标,有选择的访问网页与相关的链接,获取所需要的信息。
[0003]然而,随着爬虫技术的发展,其对互联网行业带来了一定的负面影响。例如,爬虫不断爬取数据,将数据泄露给不良产业等。因此,需要及时识别爬虫,以避免给用户、企业造成损失。
技术实现思路
[0004]本申请实施例提供了一种属性识别方法,以提供一种识别爬虫的方式。
[0005]相应的,本申请实施例还提供了一种属性识别装置、一种电子设备以及一种存储介质,用以保证上述方法的实现及应用。
[0006]为了解决上述问题,本申请实施例公开了一种属性识别方法,所述方法包括:
[0007]获取目标对象的统一资源定位系统UR
【技术保护点】
【技术特征摘要】
1.一种属性识别方法,其特征在于,包括:获取目标对象的统一资源定位系统URL序列数据;将所述URL序列数据输入至预设的识别器,得到所述目标对象的目标属性的识别结果;其中,所述识别器提取所述URL序列数据的特征信息,根据所述特征信息对所述URL序列数据进行属性识别;所述特征信息包括时空特征信息;所述时空特征信息包括:URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种。2.根据权利要求1所述的属性识别方法,其特征在于,所述获取目标对象的统一资源定位系统URL序列数据之前,所述方法包括:获取样本对象的样本URL序列数据;根据所述样本URL序列数据,训练得到所述识别器。3.根据权利要求2所述的属性识别方法,其特征在于,所述根据所述样本URL序列数据,训练得到所述识别器,包括:对于所述样本URL序列数据中的第一URL序列数据,通过第一识别器提取所述第一URL序列数据的行为特征信息、提取所述第一URL序列数据的时空特征信息以及提取所述第一URL序列数据的上下文特征信息;确定所述行为特征信息的第一特征向量、所述时空特征信息的第二特征向量、所述上下文特征信息的第三特征向量;确定第四特征向量,根据所述第四特征向量确定所述第一URL序列数据的第一识别结果;所述第四特征向量为所述第一特征向量、第二特征向量以及第三特征向量拼接后的字符串的特征向量;确定所述第一识别结果的损失函数值,根据所述损失函数值调整所述第一识别器,得到第二识别器;通过第二识别器对所述样本URL序列数据中的第二URL序列数据进行识别,至得到满足预设损失函数值要求的所述识别器。4.根据权利要求3所述的属性识别方法,其特征在于,所述提取所述第一URL序列数据的行为特征信息,包括:提取所述第一URL序列数据中在第一目标标识符之前的行为序列数据;提取所述行为序列数据中的行为特征信息。5.根据权利要求3所述的属性识别...
【专利技术属性】
技术研发人员:夏威,赵飞,
申请(专利权)人:拉扎斯网络科技上海有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。