【技术实现步骤摘要】
一种基于在线百科的知识库快速构建方法及系统
[0001]本专利技术涉及计算机应用
,尤其是涉及一种基于在线百科的知识库快速构建方法及系统。
技术介绍
[0002]近年来,越来越多的领域开始使用自然语言处理技术进行知识挖掘,但很多细化的特定领域缺乏系统的知识整理或有效的知识整合。同时,随着计算机网络和移动互联等技术的发展和应用,在线百科网站这类新型信息载体快速发展,百科类信息的数据量急剧增长。百科网站提供了大量与特定领域相关的半结构化信息,这些信息可以帮助我们更好地了解某些领域。例如,在医药领域,我们可以通过百科找到有关药品和疾病的信息;在农业领域,我们通过百科可以找到有关农作物和病虫害的相关信息。但是在线百科网站并不利于计算机直接查询和理解,需要将知识进行格式化处理,通过利用这些百科知识,我们可以挖掘特定领域的知识,并构建出丰富的领域知识库,以便计算机能够更好地理解和利用这些知识。
[0003]因此,开发基于在线百科的知识库快速构建方法,可以使用自动化的方式从百科网站上提取信息,并将其整理成结构化的知识库,从而 ...
【技术保护点】
【技术特征摘要】
1.一种基于在线百科的知识库快速构建方法,其特征在于,包括:确定需构建知识库的领域,根据领域构建领域关键词种子库;根据所述领域关键词种子库确定百科词条,利用已确定的所述百科词条迭代更新所述领域关键词种子库,进一步获取百科词条;存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;基于领域相关的信息分别获取节点信息及关系表单信息,遍历所述关系表单信息中的源节点及目标节点的索引id,创建源节点
‑
关系
‑
目标节点的三元组;将所述三元组批量创建至图数据库中,得到知识库。2.根据权利要求1所述的基于在线百科的知识库快速构建方法,其特征在于:所述确定需构建知识库的领域,根据领域构建领域关键词种子库;包括:根据领域明确收集范围;根据领域的收集范围,列出领域的关键词,作为领域关键词种子库。3.根据权利要求1所述的基于在线百科的知识库快速构建方法,其特征在于:根据所述领域关键词种子库确定百科词条,利用已确定的所述百科词条迭代更新所述领域关键词种子库,进一步获取百科词条;包括:根据在线百科网站中的重定向表确定所述领域关键词种子库中各关键词对应的百科词条;根据百科词条的关联词条及信息域类别扩展百科词条;根据扩展后得到的百科词条迭代更新所述领域关键词种子库;根据更新后的所述领域关键词种子库进一步获取百科词条。4.根据权利要求1所述的基于在线百科的知识库快速构建方法,其特征在于:存储所有百科词条的半结构化信息,经筛选及整理获得领域相关的信息并存储;包括:对半结构化信息进行筛选,收集有用的信息、提出无用的信息;对有用的信息进行整理,使信息更容易被理解和使用;整理后的信息即为领域相关的信息,将领域相关的信息进行存储。5.根据权利要求1所述的基于在线百科的知识库快速构建方法,其特征在于:基于领域相关的信息分别获取节点信息及关系表单信息;包括:所...
【专利技术属性】
技术研发人员:李帅帅,蔡华,徐清,
申请(专利权)人:华院计算技术上海股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。