属性识别方法、装置及电子设备制造方法及图纸

技术编号：34041740 阅读：31 留言：0更新日期：2022-07-06 13:39

本申请实施例涉及互联网技术领域，公开了一种属性识别方法、装置及电子设备，所述方法包括：获取目标对象的统一资源定位系统URL序列数据；将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别；所述特征信息包括时空特征信息；所述时空特征信息包括：URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种。本申请实施例提供了一种识别爬虫的方式。了一种识别爬虫的方式。了一种识别爬虫的方式。

Attribute recognition method, device and electronic equipment

全部详细技术资料下载

【技术实现步骤摘要】
属性识别方法、装置及电子设备

[0001]本申请涉及互联网
，具体而言，本申请涉及一种属性识别方法、装置及电子设备。

技术介绍

[0002]随着互联网技术的迅速发展，网络成为大量信息的载体。为了有效地提取并利用网络信息，定向抓取相关网页资源的爬虫应运而生。通常情况下，爬虫是一个自动提取网页的程序，其根据既定的抓取目标，有选择的访问网页与相关的链接，获取所需要的信息。
[0003]然而，随着爬虫技术的发展，其对互联网行业带来了一定的负面影响。例如，爬虫不断爬取数据，将数据泄露给不良产业等。因此，需要及时识别爬虫，以避免给用户、企业造成损失。

技术实现思路

[0004]本申请实施例提供了一种属性识别方法，以提供一种识别爬虫的方式。
[0005]相应的，本申请实施例还提供了一种属性识别装置、一种电子设备以及一种存储介质，用以保证上述方法的实现及应用。
[0006]为了解决上述问题，本申请实施例公开了一种属性识别方法，所述方法包括：
[0007]获取目标对象的统一资源定位系统UR

【技术保护点】

【技术特征摘要】
1.一种属性识别方法，其特征在于，包括：获取目标对象的统一资源定位系统URL序列数据；将所述URL序列数据输入至预设的识别器，得到所述目标对象的目标属性的识别结果；其中，所述识别器提取所述URL序列数据的特征信息，根据所述特征信息对所述URL序列数据进行属性识别；所述特征信息包括时空特征信息；所述时空特征信息包括：URL访问时间间隔信息、请求访问的兴趣点POI位置信息以及所述目标对象的位置信息中的至少一种。2.根据权利要求1所述的属性识别方法，其特征在于，所述获取目标对象的统一资源定位系统URL序列数据之前，所述方法包括：获取样本对象的样本URL序列数据；根据所述样本URL序列数据，训练得到所述识别器。3.根据权利要求2所述的属性识别方法，其特征在于，所述根据所述样本URL序列数据，训练得到所述识别器，包括：对于所述样本URL序列数据中的第一URL序列数据，通过第一识别器提取所述第一URL序列数据的行为特征信息、提取所述第一URL序列数据的时空特征信息以及提取所述第一URL序列数据的上下文特征信息；确定所述行为特征信息的第一特征向量、所述时空特征信息的第二特征向量、所述上下文特征信息的第三特征向量；确定第四特征向量，根据所述第四特征向量确定所述第一URL序列数据的第一识别结果；所述第四特征向量为所述第一特征向量、第二特征向量以及第三特征向量拼接后的字符串的特征向量；确定所述第一识别结果的损失函数值，根据所述损失函数值调整所述第一识别器，得到第二识别器；通过第二识别器对所述样本URL序列数据中的第二URL序列数据进行识别，至得到满足预设损失函数值要求的所述识别器。4.根据权利要求3所述的属性识别方法，其特征在于，所述提取所述第一URL序列数据的行为特征信息，包括：提取所述第一URL序列数据中在第一目标标识符之前的行为序列数据；提取所述行为序列数据中的行为特征信息。5.根据权利要求3所述的属性识别...

【专利技术属性】
技术研发人员：夏威，赵飞，
申请(专利权)人：拉扎斯网络科技上海有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人