基于自动化爬虫的资源池对象数据获取方法及系统技术方案

技术编号:32465843 阅读:18 留言:0更新日期:2022-02-26 09:03
本申请提供的基于自动化爬虫的资源池对象数据获取方法及系统,通过确定对象检索请求以及目标检索意图信息,并在对检索约束条件进行识别之前,结合检索约束条件的认证信息定位绑定的对象检索意图信息,并在对检索约束条件进行加载的前提下,结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,在该检索约束条件中注释关键词特征;不同检索约束条件中注释的关键词特征基于设定爬虫配置信息调整,调整之前和调整之后的两组关键词特征之间存在检索要素关联,从而能够更加准确地确定出检索约束条件,这样一来,能够有效地提高对象数据获取的完整性和可信度。高对象数据获取的完整性和可信度。高对象数据获取的完整性和可信度。

【技术实现步骤摘要】
基于自动化爬虫的资源池对象数据获取方法及系统


[0001]本申请涉及数据获取
,具体而言,涉及基于自动化爬虫的资源池对象数据获取方法及系统。

技术介绍

[0002]网络爬虫(又被称为网页蜘蛛,网络机器人)就是模拟浏览器发送网络请求,接收请求响应,一种按照一定的规则,自动地抓取互联网信息的程序。在爬虫技术具体应用到智能制造科技服务资源池的对象数据获取的过程中时,可能会存在多个检索约束条件,从而导致不能精确地获得对应的对象数据。因此,亟需一种技术方案以改善上述技术问题。

技术实现思路

[0003]鉴于此,本申请提供了基于自动化爬虫的资源池对象数据获取方法及系统。
[0004]第一方面,提供一种基于自动化爬虫的资源池对象数据获取方法,应用于对象数据获取系统,所述方法至少包括:确定对象检索请求以及目标检索意图信息,所述目标检索意图信息通过对所述对象检索请求进行意图挖掘得到;所述目标检索意图信息涵盖目标对象描述标签;针对待进行识别的其中一组检索约束条件,结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息;在对该检索约束条件进行加载的前提下,结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,在该检索约束条件中注释关键词特征;不同检索约束条件中注释的关键词特征基于设定爬虫配置信息调整,调整之前和调整之后的两组关键词特征之间存在检索要素关联。
[0005]在一种独立实施的实施例中,所述目标检索意图信息还包括认证信息;对于对其中一组检索约束条件挖掘得到的目标检索意图信息,该目标检索意图信息中涵盖的认证信息为该检索约束条件指向的认证信息;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息,包括:结合该检索约束条件的认证信息定位所述目标检索意图信息;在所述目标检索意图信息中存在认证信息与该检索约束条件的认证信息相同的第一目标检索意图信息的前提下,将所述第一目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息;在所述目标检索意图信息中不存在所述第一目标检索意图信息的前提下,确定所述目标检索意图信息中存在认证信息与该检索约束条件的认证信息的量化差异小于或等于第一设定认证指标的第二目标检索意图信息;在存在所述第二目标检索意图信息的前提下,将所述第二目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息。
[0006]在一种独立实施的实施例中,所述目标检索意图信息还包括认证信息;所述确定对象检索请求以及目标检索意图信息之后,还包括:将确定到的所述目标检索意图信息以
目标描述状态添加到云端数据库中;其中,所述目标描述状态的其中一组目标检索意图信息,以该目标检索意图信息中涵盖的认证信息与该目标检索意图信息中的剩余意图内容的映射列表的规则进行保留;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息,包括:结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息,以确定是否存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息;在所述目标描述状态的目标检索意图信息中存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,将该目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息之后,还包括:在所述目标描述状态的目标检索意图信息中存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,将所述目标描述状态的该目标检索意图信息丢弃,并将该目标检索意图信息确定为有效意图。
[0007]在一种独立实施的实施例中,所述结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息之后,还包括:在所述目标描述状态的目标检索意图信息中不存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,确定有效意图的认证信息与该检索约束条件的认证信息的量化差异是否大于第二设定认证指标;在有效意图的认证信息与该检索约束条件的认证信息的量化差异小于或等于第二设定认证指标的前提下,将该有效意图确定为与该检索约束条件绑定的对象检索意图信息。
[0008]在一种独立实施的实施例中,所述确定有效意图的认证信息与该检索约束条件的认证信息的量化差异是否大于第二设定认证指标之后,还包括:在有效意图的认证信息与该检索约束条件的认证信息的量化差异大于第二设定认证指标的前提下,过滤该有效意图。
[0009]在一种独立实施的实施例中,所述结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息之后,还包括:在确定所述目标描述状态的目标检索意图信息中存在认证信息优先于该检索约束条件的认证信息,且认证信息与该检索约束条件的认证信息的量化差异大于第三设定认证指标的目标描述状态的前提下,丢弃该目标描述状态。
[0010]在一种独立实施的实施例中,所述目标检索意图信息还包括潜在意图;所述结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,在该检索约束条件中注释关键词特征,包括:结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,确定数据标记线程的注释对象描述标签,并结合所述数据标记线程的注释对象描述标签在该检索约束条件中注释关键词特征;所述确定数据标记线程的注释对象描述标签之后,还包括:结合所述数据标记线程的注释对象描述标签,确定检索内容集的注释对象描述标签,以及,结合所述潜在意图确定对象详情信息;结合所述检索内容集的注释对象描述标签以及所述对象详情信息,在该
检索约束条件中注释检索内容主题。
[0011]在一种独立实施的实施例中,所述在该检索约束条件中注释关键词特征,包括:在符合对象详情调整要求的前提下,从设定的多组关键词特征中筛选前一轮注释的关键词特征的后一组关键词特征,将所筛选的关键词特征在该检索约束条件中注释;其中,所述设定的多组关键词特征中,相邻两组关键词特征之间存在设定检索要素关联;或,在符合对象详情调整要求的前提下,对前一轮注释的关键词特征进行设定维度的更新,并将更新后的关键词特征在该检索约束条件中注释;其中,关键词特征基于设定爬虫配置信息调整,包括:结合目标与设定绑定指示的绑定记录确定关键词特征的调整策略,和/或,结合与目标绑定的设定绑定指示的热度确定关键词特征的调整策略;其中,与所述设定绑定指示绑定的对象指向的关键词特征的调整策略的使用评价大于未与所述设定绑定指示绑定的对象指向的关键词特征的调整策略的使用评价;与第一热度的设定绑定指示绑定的对象指向的关键词特征的调整策略的使用评价大于与第二热度的设定绑定指示绑定的对象指向的关键词特征的调整策略的使用评价。
[0012]第二方面,提供一种基于自动化爬虫的资源池对象数据获取系统,包括互相之间通信的处理器和存储器,所述处理器用于从所述存储器中读取计算机程序并执行,以实现上述的方法。
[0013本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于自动化爬虫的资源池对象数据获取方法,其特征在于,应用于对象数据获取系统,所述方法至少包括:确定对象检索请求以及目标检索意图信息,所述目标检索意图信息通过对所述对象检索请求进行意图挖掘得到;所述目标检索意图信息涵盖目标对象描述标签;针对待进行识别的其中一组检索约束条件,结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息;在对该检索约束条件进行加载的前提下,结合与该检索约束条件绑定的对象检索意图信息中的目标对象描述标签,在该检索约束条件中注释关键词特征;不同检索约束条件中注释的关键词特征基于设定爬虫配置信息调整,调整之前和调整之后的两组关键词特征之间存在检索要素关联。2.如权利要求1所述的方法,其特征在于,所述目标检索意图信息还包括认证信息;对于对其中一组检索约束条件挖掘得到的目标检索意图信息,该目标检索意图信息中涵盖的认证信息为该检索约束条件指向的认证信息;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息,包括:结合该检索约束条件的认证信息定位所述目标检索意图信息;在所述目标检索意图信息中存在认证信息与该检索约束条件的认证信息相同的第一目标检索意图信息的前提下,将所述第一目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息;在所述目标检索意图信息中不存在所述第一目标检索意图信息的前提下,确定所述目标检索意图信息中存在认证信息与该检索约束条件的认证信息的量化差异小于或等于第一设定认证指标的第二目标检索意图信息;在存在所述第二目标检索意图信息的前提下,将所述第二目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息。3.如权利要求1所述的方法,其特征在于,所述目标检索意图信息还包括认证信息;所述确定对象检索请求以及目标检索意图信息之后,还包括:将确定到的所述目标检索意图信息以目标描述状态添加到云端数据库中;其中,所述目标描述状态的其中一组目标检索意图信息,以该目标检索意图信息中涵盖的认证信息与该目标检索意图信息中的剩余意图内容的映射列表的规则进行保留;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息,包括:结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息,以确定是否存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息;在所述目标描述状态的目标检索意图信息中存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,将该目标检索意图信息确定为与该检索约束条件绑定的对象检索意图信息;所述结合该检索约束条件的认证信息定位所述目标检索意图信息,以得到与该检索约束条件绑定的对象检索意图信息之后,还包括:在所述目标描述状态的目标检索意图信息中存在认证信息与该检索约束条件的认证信息绑定的对象检索意图信息的前提下,将所述目标描述状态的该目标检索意图信息丢弃,并将该目标检索意图信息确定为有效意图。4.如权利要求3所述的方法,其特征在于,所述结合该检索约束条件的认证信息定位所述目标描述状态的目标检索意图信息之后,还包括:

【专利技术属性】
技术研发人员:钟国华李希禹殷建文何善海龚增辉龚郁孙秀婷
申请(专利权)人:广州博士信息技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1