一种领域知识库中的概念自动获取方法、系统、装置及介质制造方法及图纸

技术编号:35425807 阅读:14 留言:0更新日期:2022-11-03 11:28
本发明专利技术公开了一种领域知识库中的概念自动获取方法、系统、装置及介质;包括:基于DOM解析半结构化文档,获取文档的关键词信息;基于关键词信息,爬取Web网页数据;对Web网页数据进行动态解析,抽取三元组,构建本体;基于本体,构建终身机器学习模型;基于终身机器学习模型,获取未被命名的概念,并以三元组的形式扩充至本体知识库中。本发明专利技术能够有效整合知识结构,更加方便用户地理解和使用,同时进行本体的构建,能够根据现有的概念和属性,推理出复杂的逻辑关系,使得程序可以轻而易举的读懂语义逻辑;并且在系统不断学习的过程中,实现了web信息知识的动态获取与整合,不断地扩大领域知识库,对所构建的知识概念结构也在进行及时地更新。及时地更新。及时地更新。

【技术实现步骤摘要】
一种领域知识库中的概念自动获取方法、系统、装置及介质


[0001]本专利技术属于知识管理
,涉及一种领域知识库中的概念自动获取方法、系统、装置及介质。

技术介绍

[0002]在知识型社会中,学习不仅是在学校等教育机构中系统化规范化的活动,也是工作生活环境中解决问题的过程。互联网作为目前个体获取知识资源的主要途径,其信息量巨大,质量参差不齐。因此为了确保非系统学习环境下的学习效果,需要一定的技术手段和权威的知识信息资源去建立相应的领域知识库。
[0003]知识管理技术在知识驱动过程中发挥着关键作用。个人或组织的知识管理涉及各种工作,包括创造、分享、使用和管理知识和信息。它是一个多学科的领域,旨在通过对知识的最佳利用来实现目标。现有的知识管理技术是多种多样的,它们包括从设计代表某一领域知识的概念到开发知识管理工具和应用知识来解决问题。医疗保健知识的一个基本要素是从各种信息资源中收集和整合保健知识,如专业医疗组织、保健门户和有关健康的社会媒体社区。在电子健康环境下,知识收集是一个整合和创建知识体系的社会合作过程,也是一个利用这些知识连接相关资源(如健康服务)的过程。有许多已知的IT人工制品支持知识的创造、存储和检索,如知识库。在知识库的分析和推理能力的支持下,医疗保健中的知识管理可以用于决策和决策支持,以及使用健康技术的能力和意愿。
[0004]终身学习(Lifelong Learning,LL)的一个应用的广阔领域就是信息提取(Information Extraction,IE);IE的目标是连续提取和积累尽可能多的有用信息和知识。换句话说,提取过程是自然连续和累积的。之前提取的信息可以帮助后面提取更多更高质量的信息,这与LL的目标相匹配,LL的知识库(Knowledge Base,KB)会保存提取的信息和其他有用的信息以供机器阅读。其中最著名的终身信息提取系统NELL,它以谓语集合的形式定义了一组待学习的目标类属和关系的本体,少量用于每个类属和关系的种子训练样本,以及一组耦合各种类属和关系的约束。
[0005]NELL中用于执行提取与学习的有四个主要的子系统组件,分别是耦合模式学习器(CPL)、耦合SEAL(CSEAL)、耦合形态分类器(CMC)和规则学习器(RuleL)。CPL子系统的提取器主要是在阅读阶段使用上下文模式从非结构化的免费Web文本中同时提取类属和关系实例;CSEAL是一个提取和学习系统,使用包装器归纳方法从半结构化的网页中提取事实;CMC分类器用于确定其他组件提取的候选事实/置信是否属于它们各自的类属;RuleL负责多关系的推广,即学到的规则被用来从已经在知识库中的其他关系实例中推断出新的关系实例。
[0006]由于NELL是一种半监督信息提取系统,对于每个学习任务只有少量的带标记的训练样本,是不足以学习出精确的提取器来提取可靠的知识。没有可靠的知识支撑,NELL对于LL是无法支撑下去的,因为在未来学习中使用错误的知识是非常有害的。因此使用了不同类型的数据源来提取不同类型的相关知识,同时去约束学习任务。但作为一个自主学习代
理仍然会存在一定的问题:每天24小时不停歇的学习阅读Web,成本高;没有自我反省和明确的学习目标,对于专门的领域学习而言效果不佳;依赖的是网络冗余信息,因此一致性和正确性之间的关系不统一。

技术实现思路

[0007]本专利技术的目的在于解决现有技术中的问题,提供一种领域知识库中的概念自动获取方法、系统、装置及介质,能够降低学习成本,明确学习目标,提高学习效果。
[0008]为达到上述目的,本专利技术采用以下技术方案予以实现:
[0009]一种领域知识库中的概念自动获取方法,包括:
[0010]基于DOM解析半结构化文档,获取文档的关键词信息;
[0011]基于关键词信息,爬取Web网页数据;
[0012]对Web网页数据进行动态解析,抽取三元组,构建本体;
[0013]基于本体,构建终身机器学习模型;
[0014]基于终身机器学习模型,获取未被命名的概念,并以三元组的形式扩充至本体知识库中。
[0015]本专利技术的进一步改进在于:
[0016]半结构化文档包括:UMLS、SNOMED

CT和MeSH;
[0017]基于DOM解析半结构化文档,获取文档的关键词信息,具体为:
[0018]通过DOM对UMLS、SNOMED CT、MeSH半结构化数据进行解析,提取关键词的描述、概念、术语的关系信息。
[0019]基于关键词信息,爬取Web网页数据,具体为:
[0020]基于DOM解析的关键词的描述信息,在Web页面中去搜索仅限于关键词的文章信息,对文章信息进行爬取,获取文章的标题、发布时间和内容,创建输出文件并将结果写入本地es库。
[0021]对Web网页数据进行动态解析,抽取三元组,具体为:
[0022]基于自然语言处理中的实体解析技术,对Web网页数据进行动态解析;
[0023]构建与所爬取非/半结构化数据相匹配的语义模板,并通过正则表达式规则将DOM解析的半结构化数据转换成结构化数据,从爬取的Web网页数据中抽取<S,P,O>,构建本体所需的实体及其属性关系。
[0024]构建本体,具体为:
[0025]将结构化数据和Web资源中抽取的<S,P,O>三元组作为本体构建的数据源;
[0026]元数据获取:利用Jsoup解析获取HTML文本内容,获取元数据;所获取的元数据为web页面中的文本段落信息;
[0027]生成断言层:对元数据进行预处理,生成断言;
[0028]语义概念提取层:提取文本内容中的关键词概念;
[0029]语义关系提取层:从每条断言中抽象出RDF规范中的三元组,三元组的每一部分的信息内容需要采用语义概念提取层所提取到的术语或者概念;
[0030]RDF数据是状态的集合,称为三元组,形式为<S,P,O>,S表示标题,P是断言,O代指对象;每个三元组描述了S与O之间的联系;三元组集合表示为直接典型的图,图中节点代表
S,O,边代表断言,连接起S,O;
[0031]一个句子包含三元组;其中三元组是<S,P,O>的形式,S,O是实体,P是两个实体的关系;
[0032]本体语言表示层:利用RDF和OWL语言对已有的三元组集合进行永久性存储,即将数据源进行存储;使上一层获取到的语义关系能够被本体语言表示,将学习到的知识输出为本体文件;
[0033]基于Prot
é
g
é
工具完成本体构建,启动Hermit推理机推理语义逻辑关系,获取语义逻辑。
[0034]基于本体,构建终身机器学习模型,具体为:
[0035]接收任务管理器所发送的任务;
[0036]基于本体知本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种领域知识库中的概念自动获取方法,其特征在于,包括:基于DOM解析半结构化文档,获取文档的关键词信息;基于关键词信息,爬取Web网页数据;对Web网页数据进行动态解析,抽取三元组,构建本体;基于本体,构建终身机器学习模型;基于终身机器学习模型,获取未被命名的概念,并以三元组的形式扩充至本体知识库中。2.根据权利要求1所述的领域知识库中的概念自动获取方法,其特征在于,所述半结构化文档包括:UMLS、SNOMED

CT和MeSH;基于DOM解析半结构化文档,获取文档的关键词信息,具体为:通过DOM对UMLS、SNOMED CT、MeSH半结构化数据进行解析,提取关键词的描述、概念、术语的关系信息。3.根据权利要求2所述的领域知识库中的概念自动获取方法,其特征在于,所述基于关键词信息,爬取Web网页数据,具体为:基于DOM解析的关键词的描述信息,在Web页面中去搜索仅限于关键词的文章信息,对文章信息进行爬取,获取文章的标题、发布时间和内容,创建输出文件并将结果写入本地es库。4.根据权利要求3所述的领域知识库中的概念自动获取方法,其特征在于,所述对Web网页数据进行动态解析,抽取三元组,具体为:基于自然语言处理中的实体解析技术,对Web网页数据进行动态解析;构建与所爬取非/半结构化数据相匹配的语义模板,并通过正则表达式规则将DOM解析的半结构化数据转换成结构化数据,从爬取的Web网页数据中抽取<S,P,O>,构建本体所需的实体及其属性关系。5.根据权利要求4所述的领域知识库中的概念自动获取方法,其特征在于,所述构建本体,具体为:将结构化数据和Web资源中抽取的<S,P,O>三元组作为本体构建的数据源;元数据获取:利用Jsoup解析获取HTML文本内容,获取元数据;所获取的元数据为web页面中的文本段落信息;生成断言层:对元数据进行预处理,生成断言;语义概念提取层:提取文本内容中的关键词概念;语义关系提取层:从每条断言中抽象出RDF规范中的三元组,三元组的每一部分的信息内容需要采用语义概念提取层所提取到的术语或者概念;RDF数据是状态的集合,称为三元组,形式为<S,P,O>,S表示标题,P是断言,O代指对象;每个三元组描述了S与O之间的联系;三元组集合表示为直接典型的图,图中节点代表S,O,边代表断言,连接起S,O;一个句子包含三元组;其中三元组是<S,P,O>的形式,S,O是实体,P是两个实体的关系;本体语言表示层:利用RDF和OWL语言对已有的三元组集合进行永久性存储,即将数据源进行存储;使上一层获取到的语义关系能够被本体语言表示,将学习到的知识输出为本体文件;
基于Prot
...

【专利技术属性】
技术研发人员:袁柳剌媛
申请(专利权)人:陕西师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1