一种基于自然语言处理的知识库建立方法技术

技术编号:17486241 阅读:31 留言:0更新日期:2018-03-17 10:33
本发明专利技术公开了一种基于自然语言处理的知识库建立方法,该方法包括:步骤1,将文件中的文本数据放入预设的数据集中;步骤2,发现父主题、将涉及父主题的所有语句从数据集中摘出、作为父主题内容清单;步骤3,发现子主题、将定义子主题的所有语句从父主题内容清单中摘出;步骤4,判断所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中。本发明专利技术创建了符合用户学习逻辑的知识库,通过对待学习材料的提取和知识点的逻辑设计,满足用户对知识点的快速检索和深入学习,有效提高用户的检索和学习效率,增强了用户体验。

A method of building knowledge base based on Natural Language Processing

The invention discloses a method for establishing the knowledge base of Natural Language Processing based on the method includes: Step 1, the text data file into the preset data; step 2, find the parent theme, all statements involving the parent theme from the data sets out, as the list of the parent theme; step 3, found that the child all statements define sub theme, the theme from the parent theme list of content extraction; step 4, determine whether all sub topics were all found, if yes, the step 5; if not, return to step 3; step 5, the rest of the parent theme list as the parent theme process. The parent theme and the parent theme process as knowledge, into the knowledge base. The invention creates a knowledge base that accords with user's learning logic. By learning the extraction of learning materials and logical design of knowledge points, it can meet users' quick search and in-depth learning of knowledge points, effectively improve user's retrieval and learning efficiency, and enhance user experience.

【技术实现步骤摘要】
一种基于自然语言处理的知识库建立方法
本专利技术涉及自然语言处理
,更为具体来说,本专利技术为一种基于自然语言处理的知识库建立方法。
技术介绍
目前,虽然已经建立了一些用于用户学习的知识库或数据库,但是,常规建立知识库的方法往往是对现有内容的简单分类和简单存储,实质上相当于建立了一个电子图书馆,所以常规知识库中的内容之间往往是相互独立的。用户在进行检索和学习时,往往需要不断地尝试新的关键字才能得到足够有用的信息,甚至有时即使经过多次的检索仍然没有得到想要的结果。在用户不断尝试新关键字的过程中,呈现给用户的冗杂的、无用的内容会耗费用户大量的时间,用户往往需付出大量无用的劳动才能对需要学习的知识点有所了解,导致知识获取的效率过低、耗时耗力,难以满足用户的需求,而且上述问题导致用户体验非常差。因此,面对大量的学习材料的情况下,如何使用户尽快学习到需要的知识点、提高用户学习效率、改善用户体验,成为了本领域技术人员亟待解决的技术问题和始终研究的重点。
技术实现思路
为解决已建立的常规知识库会耗费用户大量的时间、限制用户的学习效率、影响用户体验等问题,本专利技术创新提出了一种基于自然语言处理的知识库建立方法,该方法通过对待学习材料的处理和加工的方式提取用户需要的核心内容,以该核心内容作为知识库建立的基础内容,实现在用户进行检索和查询过程中能够更快的接触到主干知识点,并可按照知识库中预先创立的知识构架进行高效学习,避免用户将宝贵的时间浪费在冗杂的无用内容上;因此,本专利技术能够显著地提高用户的检索和学习效率,提高用户满意度。为实现上述的技术目的,本专利技术公开了一种基于自然语言处理的知识库建立方法,该方法包括如下步骤,步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中;步骤2,通过扫描整个数据集的方式发现父主题,将涉及所述父主题的所有语句从数据集中摘出,并将涉及所述父主题的所有语句作为父主题内容清单;步骤3,通过扫描所述父主题内容清单的方式发现子主题,并将定义所述子主题的所有语句从父主题内容清单中摘出;其中,所述子主题用于解释所述父主题;步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中。本专利技术建立了一种具有主题和主体流程的知识库,将围绕主题的核心内容有效地提取出来,以满足用户通过主题流程而快速学习作为知识点的主题的需要,相对于现有知识库,本专利技术有效地提高了用户的学习效率和满意度。进一步地,步骤5中,将父主题与子主题之间的关系作为基本主题网络,将所述基本主题网络、父主题、父主题流程作为知识点纳入知识库中。基于上述改进的技术方案,本专利技术通过引入基本主题网络的方式满足用户对作为主题的知识点进行更为有效的学习,并引导用户有目标地继续学习。进一步地,步骤3中,还包括产生子主题流程的步骤:将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从所述子主题内容清单中摘出,将子主题内容清单中剩下的内容作为子主题流程;其中,所述下级子主题用于解释所述子主题;步骤5中,将所述父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。基于上述改进的技术方案,本专利技术通过引入子主题流程的方式令用户进行更为深入、透彻的学习和理解。进一步地,步骤3中,通过递归的方式建立树状主题网络,所述树状主题网络中包含级别由高到低的主题,且低级别的主题用于解释与其在级别上相邻的高级别主题;然后通过所述树状主题网络替代所述基本主题网络;步骤5中,将父主题、父主题流程、树状主题网络、子主题流程作为知识点纳入知识库中。基于上述改进的技术方案,本专利技术通过上述知识点使用户对围绕主题的核心内容有了深入、全面、详细的学习,从而极大地缩短了用户对相关核心内容掌握所使用的时间,提高了用户的对知识点的学习效率。进一步地,步骤2中,涉及所述父主题的所有语句包括父主题定义语句和父主题引用语句。进一步地,步骤2中,将具有解释或分类功能且出现于所述父主题后端的词作为判断当前语句是父主题定义语句的标准。进一步地,步骤5中,还包括将父主题流程中的内容进行步骤性描述的步骤。进一步地,步骤5中,还包括将子主题流程中的内容进行步骤性描述的步骤。进一步地,具有文本内容的文件包括word文件、pdf文件。本专利技术的有益效果为:本专利技术能够创建出符合用户学习逻辑的知识库,通过对待学习材料的提取和知识点的逻辑设计,满足用户对知识点的快速检索和深入学习,有效提高用户的检索和学习效率,增强了用户体验。附图说明图1为基于自然语言处理的知识库建立方法的流程示意图。具体实施方式下面结合说明书附图对本专利技术进行详细的解释和说明。如图1所示,本专利技术具体公开了一种基于自然语言处理的知识库建立方法,具体来说,该方法包括如下步骤。步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中,比如,具有文本内容的文件可以包括word文件、pdf文件、txt文件、wps文件等等,这些文件可作为被本专利技术处理的全文资料。步骤2,由于对知识点的理解往往通过知识点的定义和知识点的引用,而知识点的引用往往体现在该知识点的上下文中,为帮助理解相关知识点,本专利技术通过扫描整个数据集的方式发现父主题,将涉及父主题的所有语句从数据集中摘出,并将涉及父主题的所有语句作为父主题内容清单。本实施例中,涉及父主题的所有语句包括父主题定义语句和父主题引用语句,而将具有解释或分类功能且出现于父主题后端的词作为判断当前语句是父主题定义语句的标准。步骤3,通过扫描父主题内容清单的方式发现子主题,并将定义子主题的所有语句从父主题内容清单中摘出;其中,子主题用于解释父主题;比如,父主题A的父主题内容清单中的主题定义语句中涉及主题B、C、D的引用,则B、C、D就是A的子主题。用户如果想学习主题A,则需先从主题B、C、D开始,即本专利技术符合从低级别知识点向高级别知识点学习的逻辑;本实施例中,还可包括产生子主题流程的步骤:将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从子主题内容清单中摘出,将子主题内容清单中剩下的内容作为子主题流程;其中,下级子主题用于解释子主题。进一步来说,本实施例还可通过递归的方式建立树状主题网络,树状主题网络中包含级别由高到低的主题,且低级别的主题用于解释与其在级别上相邻的高级别主题;然后通过树状主题网络替代基本主题网络。步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中;应当理解:无论是父主题流程、子主题流程甚至更低级别的主题流程,其作用是为了更好的解释其对应的主题,所以上述的“父主题流程、子主题流程甚至更低级别的主题流程”可理解为是“一种特殊的主题”。在较佳的实施例中,本步骤可将父主题与子主题之间的关系作为基本主题网络,将基本主题网络、父主题、父主题流程作为知识点纳入知识库中。作为较为优选的方案,本步骤还可将父主题、父主题流程、基本主题网络、子主题流程作为知识点纳入知识库中。本实施例还本文档来自技高网...
一种基于自然语言处理的知识库建立方法

【技术保护点】
一种基于自然语言处理的知识库建立方法,其特征在于:该方法包括如下步骤,步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中;步骤2,通过扫描整个数据集的方式发现父主题,将涉及所述父主题的所有语句从数据集中摘出,并将涉及所述父主题的所有语句作为父主题内容清单;步骤3,通过扫描所述父主题内容清单的方式发现子主题,并将定义所述子主题的所有语句从父主题内容清单中摘出;其中,所述子主题用于解释所述父主题;步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中。

【技术特征摘要】
2017.11.06 CN 20171107594831.一种基于自然语言处理的知识库建立方法,其特征在于:该方法包括如下步骤,步骤1,读取具有文本数据的文件,将文件中的文本数据放入预设的数据集中;步骤2,通过扫描整个数据集的方式发现父主题,将涉及所述父主题的所有语句从数据集中摘出,并将涉及所述父主题的所有语句作为父主题内容清单;步骤3,通过扫描所述父主题内容清单的方式发现子主题,并将定义所述子主题的所有语句从父主题内容清单中摘出;其中,所述子主题用于解释所述父主题;步骤4,判断父主题内容清单中的所有子主题是否全部被发现,如果是,则执行步骤5;如果否,则返回步骤3;步骤5,将父主题内容清单中剩下的内容作为父主题流程,将父主题和父主题流程作为知识点、纳入知识库中。2.根据权利要求1所述的基于自然语言处理的知识库建立方法,其特征在于:步骤5中,将父主题与子主题之间的关系作为基本主题网络,将所述基本主题网络、父主题、父主题流程作为知识点纳入知识库中。3.根据权利要求2所述的基于自然语言处理的知识库建立方法,其特征在于:步骤3中,还包括产生子主题流程的步骤:将用于定义子主题的所有语句作为子主题内容清单、用于定义下级子主题的所有语句从所述子主题内容清单中摘出,将子主题内容清单中剩下的内容作...

【专利技术属性】
技术研发人员:黄浩徐晨
申请(专利权)人:北京中科智营科技发展有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1