知识库数据的更新方法及装置制造方法及图纸

技术编号:15542057 阅读:81 留言:0更新日期:2017-06-05 11:10
本发明专利技术公开了一种知识库数据的更新方法及装置,涉及数据处理技术领域,主要目的在于简化更新知识库的操作过程及降低人工更新知识库导致的误差率及遗漏率。本发明专利技术的主要技术方案包括:获取待更新数据;对所述待更新数据进行格式化处理,所述格式化处理为将所述待更新数据的数据结构处理为与知识库中原有数据一致的数据结构;将格式化处理后的所述待更新数据与所述知识库中所述原有数据进行比对;若格式化处理后的所述待更新数据与所述原有数据不一致,则基于格式化处理后的所述待更新数据更新所述知识库。本发明专利技术主要应用于更新知识库的过程中。

Method and device for updating knowledge base data

The invention discloses a method and apparatus for updating the knowledge base data, relates to the technical field of data processing, the main purpose is to reduce the error rate and omission and update the knowledge base leads to the rate of artificial operation is simplified to update the knowledge base of the. Including the technical scheme of the invention: access to update data; on the need to update the data format, the format for the data to be updated data processing structure as the data structure of data consistent with the knowledge base of the central plains; format after processing the data and update the knowledge in the original data are compared; if the format after the update data and the original data are not consistent, is based on the format of the data to be updated after updating the knowledge base. The invention is mainly used in updating the knowledge base.

【技术实现步骤摘要】
知识库数据的更新方法及装置
本专利技术涉及数据处理
,特别是涉及一种知识库数据的更新方法及装置。
技术介绍
知识库(KnowledgeBase)是知识工程中结构化,易操作,易利用,全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。这些知识片包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。目前,在建立知识库后,基于知识库中的数据信息定期从第三方数据源检索是否存在更新的数据信息。在更新知识库中数据信息时,主要通过人工检索第三方数据源的方式实现,具体实现过程如下:基于爬虫程序从第三方数据源获取数据信息,或者通过人工检索的方式从第三方数据源获取数据信息;将获取到的数据信息进行筛选、核实、分类、整理;将整理后的数据信息与知识库中原有的数据信息进行比对,若整理后的数据信息与知识库中原有的数据信息不一致,则基于整理后的数据信息更新知识库。专利技术人在通过上述方式更新知识库时,发现其存在如下问题:由于知识库对应的领域所包含的数据信息非常庞大,并且数据信息较复杂,导致人工在对知识库进行更新时其操作过程复杂繁琐、耗时耗力,同时,更新知识库数据信息时依赖于人工,导致误差率和遗漏率增大。
技术实现思路
有鉴于此,本专利技术提供的一种知识库数据的更新方法及装置,主要目的在于简化更新知识库的操作过程及降低人工更新知识库导致的误差率及遗漏率。为了解决上述问题,本专利技术主要提供如下技术方案:一方面,本专利技术提供了一种知识库数据的更新方法,该方法包括:获取待更新数据;对所述待更新数据进行格式化处理,所述格式化处理为将所述待更新数据的数据结构处理为与知识库中原有数据一致的数据结构;将格式化处理后的所述待更新数据与所述知识库中所述原有数据进行比对;若格式化处理后的所述待更新数据与所述原有数据不一致,则基于格式化处理后的所述待更新数据更新所述知识库。另一方面,本专利技术还提供一种知识库数据的更新装置,该装置包括:获取单元,用于获取待更新数据;处理单元,用于对所述获取单元获取的所述待更新数据进行格式化处理,所述格式化处理为将所述待更新数据的数据结构处理为与知识库中原有数据一致的数据结构;比对单元,用于将所述处理单元格式化处理后的所述待更新数据与所述知识库中所述原有数据进行比对;更新单元,用于当所述比对单元比对的格式化处理后的所述待更新数据与所述原有数据不一致时,基于格式化处理后的所述待更新数据更新所述知识库。借由上述技术方案,本专利技术提供的技术方案至少具有下列优点:本专利技术提供的知识库数据的更新方法及装置,数据对接平台首先获取待更新数据,对获取到的待更新数据进行格式化处理,将待更新数据的数据结构处理为与知识库中原有数据一致的数据结构,将格式化处理后的待更新数据与知识库中原有数据进行比对,若格式化处理后的待更新数据与知识库中原有数据不一致,则基于格式化处理后的待更新数据更新知识库;与现有技术中人工更新知识库相比,本专利技术中数据对接平台能够连接预设第三方数据源与知识库,当确定知识库中的原有数据与获取的待更新数据不一致时,基于待更新数据更新知识库,其获取的待更新数据为可以为预设第三方数据源(即多平台信息内容的集合或特指某一数据源)中的全部数据,其数据覆盖范围广,降低了更新数据的遗漏率;同时,数据对接平台从预设第三方数据源获取待更新数据以及将待更新数据与知识库中原有数据的比对过程均为自动化执行,简化了更新知识库的操作过程,降低了更新知识库的时间消耗,降低了更新知识库的误差率。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,而可依照说明书的内容予以实施,并且为了让本专利技术的上述和其它目的、特征和优点能够更明显易懂,以下特举本专利技术的具体实施方式。附图说明通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本专利技术的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:图1示出了本专利技术实施例提供的一种知识库数据的更新方法的流程图;图2示出了本专利技术实施例提供的另一种知识库数据的更新方法的流程图;图3示出了本专利技术实施例提供的一种知识库数据的更新装置的组成框图;图4示出了本专利技术实施例提供的另一种知识库数据的更新装置的组成框图。具体实施方式下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。本专利技术实施例提供一种知识库数据的更新方法,如图1所示,该方法包括:101、获取待更新数据。其中,可以从预设第三方数据源获取待更新数据。下述均以第三方数据源为获取待更新数据的数据源为例说明。本专利技术通过构建数据对接平台实现知识库数据的自更新,其中,数据对接平台能够连接预设第三方数据源与知识库,在数据对接平台更新知识库时,首先从预设第三方数据源获取待更新数据;其中,所述待更新数据为多个。需要说明的是,所述更新知识库包括更新知识库中原有的数据、向知识库中添加新的数据。在本专利技术实施例中,相应于更新知识库的不同类型,所述预设第三方数据源可以是多个信息平台内容的集合,也可以包括但不局限于以下内容,例如:预设第三方数据源为知识库中原有数据对应的数据来源;或者,预设第三方数据源为添加到知识库中新数据对应的数据来源。具体的,所述预设第三方数据源可以为网站中对应的各种网页、微博或者微信等信息分享平台等等,本专利技术实施例对预设第三方数据源的类型不进行具体限定。102、对所述待更新数据进行格式化处理。本专利技术实施例中,知识库中的数据可能来自于不同的预设第三方数据源,该些不同预设第三方数据源之间的数据结构可能与知识库中数据对应的数据结构存在差异,因此,在数据对接平台获取到待更新数据之后,需要将该待更新数据格式化处理为与知识库中原有数据一致的数据结构,以确保当待更新数据与知识库中的原有数据存在差异时,能够基于格式化处理后的待更新数据更新知识库。103、将格式化处理后的所述待更新数据与所述知识库中所述原有数据进行比对。将步骤102中格式化处理后的待更新数据与知识库中原有数据进行比对,其目的在于确认待更新数据与知识库中原有数据是否存在差异,若存在差异,则执行步骤104;若未存在差异,则说明知识库中的原有数据无需更新。作为本专利技术实施例的一种实现方式,在将格式化处理后的待更新数据与知识库中的原有数据进行比对时,首先,获取待更新数据中的其中一个待更新数据,基于该待更新数据遍历知识库,确定知识库中与待更新数据对应的数据,将知识库中的数据与该待更新数据进行比对。本专利技术实施例对待更新数据与知识库中原有数据进行比对的具体实现形式不进行限定。104、若格式化处理后的所述待更新数据与所述原有数据不一致,则基于格式化处理后的所述待更新数据更新所述知识库。当格式化处理后的待更新数据与知识库中原有数据一致时,说明知识库中的数据不存在更本文档来自技高网...
知识库数据的更新方法及装置

【技术保护点】
一种知识库数据的更新方法,其特征在于,包括:获取待更新数据;对所述待更新数据进行格式化处理,所述格式化处理为将所述待更新数据的数据结构处理为与知识库中原有数据一致的数据结构;将格式化处理后的所述待更新数据与所述知识库中所述原有数据进行比对;若格式化处理后的所述待更新数据与所述原有数据不一致,则基于格式化处理后的所述待更新数据更新所述知识库。

【技术特征摘要】
1.一种知识库数据的更新方法,其特征在于,包括:获取待更新数据;对所述待更新数据进行格式化处理,所述格式化处理为将所述待更新数据的数据结构处理为与知识库中原有数据一致的数据结构;将格式化处理后的所述待更新数据与所述知识库中所述原有数据进行比对;若格式化处理后的所述待更新数据与所述原有数据不一致,则基于格式化处理后的所述待更新数据更新所述知识库。2.根据权利要求1所述的方法,其特征在于,对所述待更新数据进行格式化处理包括:获取所述知识库中原有数据对应的数据结构;基于所述数据结构对所述待更新数据进行格式化处理。3.根据权利要求2所述的方法,其特征在于,在基于格式化处理后的所述待更新数据更新所述知识库之前,所述方法还包括:输出显示格式化处理后的所述待更新数据与所述原有数据不一致的数据。4.根据权利要求3所述的方法,其特征在于,基于格式化处理后的所述待更新数据更新所述知识库包括:接收确认更新所述知识库的执行指令;根据所述执行指令更新所述知识库。5.根据权利要求1-4中任一项所述的方法,其特征在于,获取待更新数据,包括:接收爬虫程序爬取的所述待更新数据,所述爬虫程序的爬取频次与获取待更新数据的数据源更新的频次一致;获取所述待更新数据。6.一种知识库数据的更新装置,其特征在于,包括:获取单元,用于获取待更新数据;处理单元,用于对所述获取单元获...

【专利技术属性】
技术研发人员:刘嘉钦滨杰
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1