【技术实现步骤摘要】
基于自动化爬虫的资源池对象数据获取方法及系统
[0001]本申请涉及数据获取
,具体而言,涉及基于自动化爬虫的资源池对象数据获取方法及系统。
技术介绍
[0002]网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。在爬虫技术具体应用到智能制造科技服务资源池的对象数据获取的过程中时,可能会存在多个检索约束条件,从而导致不能精确地获得对应的对象数据。因此,亟需一种技术方案以改善上述技术问题。
技术实现思路
[0003]鉴于此,本申请提供了基于自动化爬虫的资源池对象数据获取方法及系统。
[0004]第一方面,提供一种基于自动化爬虫的资源池对象数据获取方法,应用于对象数据获取系统,所述方法至少包括:确定对象检索请求以及目标检索意图信息,所述目标检索意图信息通过对所述对象检索请求进行意图挖掘得到;所述目标检索意图信息涵盖目标对象描述标签;针对待进行识别的其中一组检索约束条件,结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息;在对该检索约束条件进行加载的前提下,结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,在该检索约束条件中注释关键词特征;不同检索约束条件中注释的关键词特征基于设定爬虫配置信息调整,调整之前和调整之后的两组关键词特征之间存在检索要素关联。
[0005]在一种独立实施的实施例中,所述目标检索意图信息还包括认证信息;对于对其中一组检索 ...
【技术保护点】
【技术特征摘要】
1.一种基于自动化爬虫的资源池对象数据获取方法,其特征在于,应用于对象数据获取系统,所述方法至少包括:确定对象检索请求以及目标检索意图信息,所述目标检索意图信息通过对所述对象检索请求进行意图挖掘得到;所述目标检索意图信息涵盖目标对象描述标签;针对待进行识别的其中一组检索约束条件,结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息;在对该检索约束条件进行加载的前提下,结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,在该检索约束条件中注释关键词特征;不同检索约束条件中注释的关键词特征基于设定爬虫配置信息调整,调整之前和调整之后的两组关键词特征之间存在检索要素关联。2.如权利要求1所述的方法,其特征在于,所述目标检索意图信息还包括认证信息;对于对其中一组检索约束条件挖掘得到的目标检索意图信息,该目标检索意图信息中涵盖的认证信息为该检索约束条件指向的认证信息;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息,包括:结合该检索约束条件的认证信息定位所述目标检索意图信息;在所述目标检索意图信息中存在认证信息与该检索约束条件的认证信息相同的第一目标检索意图信息的前提下,将所述第一目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息;在所述目标检索意图信息中不存在所述第一目标检索意图信息的前提下,确定所述目标检索意图信息中存在认证信息与该检索约束条件的认证信息的量化差异小于或等于第一设定认证指标的第二目标检索意图信息;在存在所述第二目标检索意图信息的前提下,将所述第二目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息。3.如权利要求1所述的方法,其特征在于,所述目标检索意图信息还包括认证信息;所述确定对象检索请求以及目标检索意图信息之后,还包括:将确定到的所述目标检索意图信息以目标描述状态添加到云端数据库中;其中,所述目标描述状态的其中一组目标检索意图信息,以该目标检索意图信息中涵盖的认证信息与该目标检索意图信息中的剩余意图内容的映射列表的规则进行保留;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息,包括:结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息,以确定是否存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息;在所述目标描述状态的目标检索意图信息中存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,将该目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息之后,还包括:在所述目标描述状态的目标检索意图信息中存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,将所述目标描述状态的该目标检索意图信息丢弃,并将该目标检索意图信息确定为有效意图。4.如权利要求3所述的方法,其特征在于,所述结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息之后,还包括:
【专利技术属性】
技术研发人员:钟国华,李希禹,殷建文,何善海,龚增辉,龚郁,孙秀婷,
申请(专利权)人:广州博士信息技术研究院有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。