一种知识库构建方法、控制器技术

技术编号:15112964 阅读:96 留言:0更新日期:2017-04-09 03:26
本发明专利技术提供了一种知识库构建方法、控制器,涉及互联网技术领域。解决了现有受限于WEB详情页面信息的丰富程度,导致构建的领域知识不够完整的问题。本发明专利技术提供的方法包括:接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个子任务;将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;接收所述抓取器返回的所述至少两个结构化数据;合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种知识库构建方法、控制器
技术介绍
随着互联网的发展,互联网中信息在急剧增长,为了确保计算机应用可以与时俱进地理解并智能处理目标事物,构建和使用一个尽可能丰富、准确且及时的领域知识库是非常有必要的。目前,对于领域知识库的构建多采用自动或半自动知识抽取方法,如:通过定制爬虫对百科类站点、垂直网站进行抓取,获取网页(WEB)详情页面的对象属性、表格等半结构化信息来构建领域知识库。但是,在实现本专利技术的过程中,本专利技术技术人员发现:这类通过抽取WEB详情页面的数据信息构建起来的领域知识库,其所填充的领域对象知识属性的完整性往往受限于WEB详情页面信息的丰富程度,当WEB详情页面信息不够丰富时,容易导致从该WEB详情页面信息抽取得到的领域对象知识属性不足,无法完整描述领域对象,比如:在一具体音乐的详情页面中,往往只包括与本首音乐相关的歌手、专辑、少量标签等少量信息,而该音乐所归属的风格、分类、场景等信息通过该详情页面都是无法获取到的,影响该音乐知识库的完整性。
技术实现思路
本专利技术的主要目的,在于提供一种知识库构建方法、控制器,以解决现有受限于WEB详情页面信息的丰富程度,导致构建的领域知识不够完整的问题。为达到上述目的,本专利技术的实施例采用如下技术方案:第一方面,本专利技术实施例提供一种知识库构建方法,应用于控制器,所述方法可以包括:接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;接收所述抓取器返回的所述至少两个结构化数据;合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。可选的,根据目前已知的网页类型,所述至少两个子任务可以包含:第一子任务和第二子任务,其中,所述第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页。其中,为了使控制器方便地查询到与任务名称对应的任务配置,在第一方面的一种可实现方式中,在接收知识库构建任务之前,所述方法还可以包括:接收创建请求;所述创建请求包含:所述任务名称以及任务属性;存储所述任务名称与所述任务属性的对应关系。进一步的,为了方便用户进行知识信息查询,在第一方面的另一种可实现方式中,所述方法还可以包括:接收用户发送的查询请求;所述查询请求包含:所述任务名称;查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,在第一方面的再一种可实现方式中,所述接收知识库构建任务可以包括:定期接收知识库构建任务;所述将合并后的结构化数据存入与所述任务名称对应的知识库具体可以包括:删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。如此,通过对多种类型的网页的知识抽取实现知识库的构建,由于不同类型的网页包含不同属性的知识信息,此时,将不同网页抽取到的知识信息进行合并汇总,可以很大程度的丰富知识信息的种类,实现丰富完善领域知识库的目的,避免了现有仅对单一类型的页面(如:详情页面)的内容进行抽取,导致获取到的知识信息不够充分,进而使构建的领域知识库不够丰富的问题。第二方面,本专利技术实施例提供一种控制器,可以包括:接口单元,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;任务调度单元,用于查询与所述接口单元接收到的任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;以及,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;接收所述抓取器返回的所述至少两个结构化数据,并合并所述至少两个结构化数据;任务存储单元,用于将任务调度单元合并后的结构化数据存入与所述任务名称对应的知识库。可选的,根据目前已知的网页类型,所述至少两个子任务可以包含:第一子任务和第二子任务,其中,所述第一子任务的网页类型为详情页,第二子任务的网页类型为索引导航页。其中,为了使控制器方便地查询到与任务名称对应的任务配置,在第二方面的一种可实现方式中,所述接口单元还可以用于:在接收知识库构建任务之前,接收创建请求;所述创建请求包含:所述任务名称以及任务属性;所述控制器,还可以包括:任务管理单元;所述任务管理单元,用于在接口单元接收到创建请求后,存储所述任务名称与所述任务属性的对应关系。进一步的,为了方便用户进行知识信息查询,在第二方面的另一种可实现方式中,所述接口单元,还可以用于:接收用户发送的查询请求;所述查询请求包含:所述任务名称;所述任务调度单元,还可以用于查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反馈给所述用户。进一步的,由于领域知识信息在不断的进行更新,为了使构建的知识库中的知识信息为当前最新知识信息,在第二方面的再一种可实现方式中,所述接口单元,具体用于:定期接收知识库构建任务;所述任务存储单元,具体用于删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入知识库。第三方面,本专利技术实施例提供一种控制器,可以包括:通信单元,用于接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;处理器,用于查询与所述通信单元接收到的任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;以及,将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;本文档来自技高网...

【技术保护点】
一种知识库构建方法,应用于控制器,其特征在于,包括:接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任务名称;查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽取;将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至少两个子任务,得到至少两个结构化数据;接收所述抓取器返回的所述至少两个结构化数据;合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务名称对应的知识库。

【技术特征摘要】
1.一种知识库构建方法,应用于控制器,其特征在于,包括:
接收知识库构建任务;所述知识库构建任务包含标识待构建知识库的任
务名称;
查询与所述任务名称相对应的任务配置;所述任务配置包含:至少两个
子任务,每个子任务对应设置有:目标网站、抽取模板以及网页类型;每个
子任务用于:指示抓取器根据所述抽取模板,在所述目标网站中与所述网页
类型对应的页面上进行结构化数据抽取;
将所述至少两个子任务发送给所述抓取器,触发所述抓取器执行所述至
少两个子任务,得到至少两个结构化数据;
接收所述抓取器返回的所述至少两个结构化数据;
合并所述至少两个结构化数据,将合并后的结构化数据存入与所述任务
名称对应的知识库。
2.根据权利要求1所述的方法,其特征在于,所述至少两个子任务包
含:第一子任务和第二子任务;其中,所述第一子任务的网页类型为详情页;
所述第二子任务的网页类型为索引导航页。
3.根据权利要求1或2所述的方法,其特征在于,在接收知识库构建
任务之前,所述方法还包括:
接收创建请求;所述创建请求包含:所述任务名称以及任务属性;
存储所述任务名称与所述任务属性的对应关系。
4.根据权利要求1-3任一项所述的方法,其特征在于,所述将所述至少
两个子任务发送给所述抓取器具体包括:
分别将所述至少两个子任务发送给所述抓取器;
或者,同时将所述至少两个子任务发送给所述抓取器。
5.根据权利要求1所述的方法,其特征在于,所述方法还包括:
接收用户发送的查询请求;所述查询请求包含:所述任务名称;
查询与所述任务名称相对应的知识库,将所述知识库中的结构化数据反
馈给所述用户。
6.根据权利要求1所述的方法,其特征在于,所述接收知识库构建任
务具体包括:
定期接收知识库构建任务;
将合并后的结构化数据存入与所述任务名称对应的知识库具体包括:
删除所述知识库中已有的结构化数据,将当前合并后的结构化数据存入
知识库。
7.一种控制器,其特征在于,包括:
接口单元,用于接收知识库构建任务;所述知识库构建任务包含标识待
构建知识库的任务名称;
任务调度单元,用于查询与所述接口单元接收到的任务名称相对应的任
务配置;所述任务配置包含:至少两个子任务,每个子任务对应设置有:目
标网站、抽取模板以及网页类型;每个子任务用于:指示抓取器根据所述抽
取模板,在所述目标网站中与所述网页类型对应的页面上进行结构化数据抽
取;
以及,将所述至少两个子任务发送给所述抓...

【专利技术属性】
技术研发人员:卢剑锋
申请(专利权)人:华为技术有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1