面向在线百科的知识库自动更新方法及系统技术方案

技术编号:10106585 阅读:289 留言:0更新日期:2014-06-01 21:10
本发明专利技术提供一种面向在线百科的知识库自动更新的方法,该方法实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;从所获取的知识语料识别知识的变化,以及将基于所识别的知识的变化来更新知识库。该方法实时感知更新的知识,自动判断更新知识在知识库中所处的位置,以及将更新的知识,自动合并添加到知识库中,可避免知识库的滞后性并满足用户对知识库时新性的要求。

【技术实现步骤摘要】
面向在线百科的知识库自动更新方法及系统
本专利技术涉及网络知识库,尤其涉及网络知识库自动更新方法及系统。
技术介绍
知识库通常包含一组概念、实例和关系的集合,是结构化、全面有组织的知识集群,是采用某种知识表示方式组织、管理和使用的互相联系的知识集合。这些知识包括与领域相关的理论知识、事实数据,由专家经验得到的启发式知识,如某领域内有关的定义、定理和运算法则以及常识性知识等。在知识工程领域中,知识描述的要素一般包括概念、实例、关系和属性四个要素。近年来,构建知识库是国内外工业界开发和学术界研究的一个热点,目前,世界各国各个组织建立的知识库多达50余种,相关的应用系统更是达到了上百种。其中,有代表性的知识库有DBpedia、YAGO、Probase、WikiTaxonomy、Freebase、Omega等。知识库之所以得到广泛关注,原因在于知识库在很多应用中起到至关重要的作用,如在搜索引擎中,Google、Bing、百度、搜狗等使用知识库帮助理解用户查询、感知用户查询意图、进行查询扩展和查询问答等;在DeepWeb资源发现中,知识库可以辅助进行DeepWeb查询选择;在社交网络中,知识库可以辅助挖掘社交数据等。而在知识库构造中,在线百科(如Wikipedia、百度百科、互动百科等)作为聚集互联网用户的群体智慧建立的大规模、随时间演化、可分享的网络百科全书,成为构造知识库首选的知识语料来源。在线百科知识语料,比起结构性较弱的普通网页,其包含的百科词条不仅具有较高的质量而且可以保证所得到知识的精度,因此,在线百科数据成为构造知识库的重要语料来源,很多知识库都是基于百科数据构造的,如:DBpedia、YAGO、WikiTaxonomy、Omega等。然而,在线百科数据是随时间不断演化的,其在不断的增加、删除和修改,因此,为了保持知识库的时新性,在最大程度上避免知识库的滞后,需要不断对知识库进行更新,以适应用户对知识的实时性的需求。知识库的更新可分为两个层面的工作:一是已有知识的更新;二是新的知识的加入。目前,专门针对知识库的更新的工作较少,很多工作都是从数据库更新的角度展开,如对数据库数据的增加、删除和修改等。从更新方式来讲,知识库的更新方法可分为两类:一种是定期重建的方式,另一种是实时更新的方式。a)定期重建的方式。该方式本质上是一种离线更新的方式:按照知识库构造的方法,定期在知识语料源上重新执行知识库构造流程,从而得到最新的知识库,这种方式虽然操作简单,但是仍然存在很多缺陷,例如,知识库更新过程耗时长、难以重用知识库构造过程中人工修正的工作、无法满足适应用户对知识的时新性的需求。b)实时更新的方式。该方式定期采集数据源,检测数据源内容的变化,将发生变化的内容提供给领域专家,由人工判断发生变化的内容涉及哪些知识,或者基于由专家制定的各种规则来判断哪些知识发生了变化并将其同步到知识库中,从而得到更新的知识库。这种方式存在以下局限性:(1)难以编写完备的规则表示知识的增加、删除、修改等;(2)难以满足用户实时更新的需求。综上所述,目前,对知识库的更新仍然没有很有效的方法,尤其是在面对用户对知识的实时性更新需求方面,远远达不到用户的要求。在更新数据的自动化感知方面,缺乏有效的办法能够自动识别知识的变化,和能够动态响应这些变化的更新机制。
技术实现思路
因此,本专利技术的目的在于克服上述现有技术的缺陷,提供一种面向在线百科的知识库自动更新的方法。本专利技术的目的是通过以下技术方案实现的:一方面,本专利技术提供了一种面向在线百科的知识库自动更新的方法,包括:步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;步骤3,基于所识别的知识来更新知识库。在上述技术方案中,在步骤1中,所述知识语料来源可包括定期备份的知识语料库,所述步骤1可包括:从该知识语料库的源网站获取新的语料库备份和语料库修改历史;对于所获取的新的语料库备份中的每个知识语料,获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间,如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间,则确定该知识语料是新增的知识语料;如果所述第一出现的时间小于或等于知识库当前使用的知识语料库备份的时间,并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间,则确定该知识语料是内容改变的知识语料。在上述技术方案中,在步骤1中所述知识语料来源还可包括通过网络搜索采集的知识语料的集合,所述步骤1还可包括:基于知识库当前使用的知识语料集合中各知识语料对应URL发送HTTP请求;从对该HTTP请求的响应的头部信息中提取该知识语料的页面内容最后一次发生变化的时间;如果所述最后一次发生变化的时间大于知识库当前所使用的该知识语料页面上次更新的时间,则确定该知识语料是内容改变的知识语料;对所确定的内容改变的知识语料的页面内容进行分析,若发现当前的知识语料集合中不存在的URL,则该URL对应的知识语料是新增的知识语料。在上述技术方案中,所述步骤3可包括:对于从新增的知识语料中识别的实例,则根据实例所属的概念判断知识库中是否存在与之对应的概念;若存在,则将该新增的实例,添加到知识库对应的概念下;若不存在,则在知识库中创建一个新的概念,并将该实例添加到该概念下;对于从内容改变的知识语料中识别的实例信息,则利用该实例信息替换知识库中对应的实例的信息。在上述技术方案中,所述步骤3中对于所识别的每个实例可执行下列步骤:步骤31)判断知识库中是否存在与该实例名称且所属概念相同的实例,如果存在,则该实例的信息添加到该知识库中对应实例中;如果不存在,则执行步骤32);步骤32)从知识库中选出与该实例名称相同但所述概念不同的实例,计算每个所选出的实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,执行步骤33);步骤33)从知识库中查找与该实例所属的概念相匹配的概念,若不存在匹配的概念,则在知识库中创建该概念,并在该概念下创建该实例;若存在匹配的概念,计算该匹配的概念下的每个实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到与该实例具有最大匹配度的实例中,否则,在该匹配的概念下创建该实例。在上述技术方案中,在所述步骤32)和步骤33)中,可以通过下面的公式来计算两个实例间的匹配度:其中,fmd(x,x′)表示实例x和实例x′的匹配度,x.P表示实例x的属性集合,pi表示实例x的属性集合中的第i个属性;x′.p表示实例x′的属性集合,pj表示实例x′的属性集合中的第j个属性;sim(pi,pj)表示属性pi与pj之间的相似度。在上述技术方案中,属性pi与pj之间的相似度可以为属性pi与pj的属性名的文本相似度和pi与pj的属性名的语义相似度的线性加权。在上述技术方案中,属性pi与pj之间的相似度可以为属性pi与pj的属性名的文本相似度。在上述技术方案中,属性pi与pj之间的相似度可以为属性pi与pj的属性名的语义相似度本文档来自技高网
...
面向在线百科的知识库自动更新方法及系统

【技术保护点】
一种面向在线百科的知识库自动更新的方法,该方法包括:步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;步骤3,基于所识别的知识来更新知识库。

【技术特征摘要】
1.一种面向在线百科的知识库自动更新的方法,该方法包括:步骤1,实时监控知识库的知识语料来源,根据知识语料更新时间和知识语料内容变化,获取新增的知识语料与内容改变的知识语料;步骤2,从所获取的知识语料识别其表示的知识,其中所识别的知识包括实例、实例的属性以及实例所属的概念;步骤3,基于所识别的知识来更新知识库;其中,所述知识语料来源包括定期备份的知识语料库,所述步骤1包括:从该知识语料库的源网站获取新的语料库备份和语料库修改历史;对于所获取的新的语料库备份中的每个知识语料,获取该知识语料在语料库修改历史中第一次出现的时间和最后一次出现的时间,如果所述第一次出现的时间大于与知识库当前使用的知识语料库备份的时间,则确定该知识语料是新增的知识语料;如果所述第一次出现的时间小于或等于知识库当前使用的知识语料库备份的时间,并且知识库当前使用的知识语料库备份的时间小于或等于所述最后一次出现的时间,则确定该知识语料是内容改变的知识语料。2.根据权利要求1所述的方法,在所述步骤1中,所述知识语料来源还包括通过网络搜索采集的知识语料的集合,所述步骤1包括:基于知识库当前使用的知识语料集合中各知识语料对应URL发送HTTP请求;从对该HTTP请求的响应的头部信息中提取该知识语料的页面内容最后一次发生变化的时间;如果所述最后一次发生变化的时间大于知识库当前所使用的该知识语料页面上次更新的时间,则确定该知识语料是内容改变的知识语料;对所确定的内容改变的知识语料的页面内容进行分析,若发现当前的知识语料集合中不存在的URL,则该URL对应的知识语料是新增的知识语料。3.根据权利要求1所述的方法,所述步骤3包括:对于从新增的知识语料中识别的实例,则根据该实例所属的概念判断知识库中是否存在与之对应的概念;若存在,则将该实例,添加到知识库对应的概念下;若不存在,则在知识库中创建一个新的概念,并将该实例添加到该概念下;对于从内容改变的知识语料中识别的实例信息,则利用该实例信息替换知识库中对应的实例的信息。4.根据权利要求1所述的方法,所述步骤3中对于所识别的每个实例执行下列步骤:步骤31)判断知识库中是否存在与该实例名称且所属概念相同的实例,如果存在,则该实例的信息添加到该知识库中对应实例中;如果不存在,则执行步骤32);步骤32)从知识库中选出与该实例名称相同但所属概念不同的实例,计算每个所选出的实例与该实例的匹配度,如果所计算的最大匹配度大于设定的阈值,则该实例的信息添加到...

【专利技术属性】
技术研发人员:程学旗王元卓林海伦贾岩涛熊锦华许洪波冯凯
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1