一种通用的知识图谱云服务系统技术方案

技术编号:23099312 阅读:23 留言:0更新日期:2020-01-14 20:38
本发明专利技术涉及一种通用的知识图谱云服务系统,包括领域专家终端、企业用户终端和云端服务器。所述的领域专家终端与云端服务器网络连接;所述的企业用户终端与云端服务器网络连接。领域专家终端用于领域专家将使用包含上下文运算符的生成文法描述的知识图谱定义上传到云端服务器;企业用户终端包括服务定制模块和结果展示模块,用于不同领域的企业向云服务器提交定制的文本分析服务请求,以及查看文本与知识图谱匹配的分析结果。使用该系统能够针对任何一个领域和行业快速建立知识图谱,然后基于此识别该行业的文本语义并进行多种计算。

A general knowledge map cloud service system

【技术实现步骤摘要】
一种通用的知识图谱云服务系统
本专利技术属于知识图谱
,具体地涉及到一种通用的知识图谱云服务系统。
技术介绍
知识图谱(KnowledgeGraph/Vault)又称为科学知识图谱,在图书情报界称为知识域可视化或知识领域映射地图,是显示知识发展进程与结构关系的一系列各种不同的图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系。国际万维网组织W3C在2007年发起了开放互联数据项目(LinkedOpenData,LOD)。该项目旨在将由互联文档组成的万维网(Webofdocuments)扩展成由互联数据组成的知识空间(Webofdata)。LOD以RDF(ResourceDescriptionFramework)形式在Web上发布各种开放数据集,RDF是一种描述结构化知识的框架,它将实体间的关系表示为(实体1,关系,实体2)的三元组。LOD还允许在不同来源的数据项之间设置RDF链接,实现语义Web知识库。目前世界各机构已经基于LOD标准发布了数千个数据集,包含数千亿RDF三元组。目前仍然缺少通用的知识图谱云服务系统,对于任何一个领域和行业,缺乏快速建立知识图谱,然后基于此识别该行业的文本语义并进行计算的方法。其原因一方面在于对于大多数行业缺乏大量的标注语料数据,难以解决机器学方法的冷启动问题;另一方面在于领域专家编写的规则,虽然精确率较高,但通常存在召回率较低的问题。
技术实现思路
1、所要解决的技术问题:针对上述存在的问题,本方法提出一种通用的知识图谱云服务系统。本方法能够针对任何一个领域和行业快速建立知识图谱,然后基于此识别该行业的文本语义并进行计算。同时它能够将包含海量语义目标的巨大知识图谱与网上的海量自由文本高效匹配。基于该认知计算平台建立的行业知识图谱往往高达数百兆字节,能基于它们识别和理解数以百万计的品牌、产品、人物、症状和厂商等目标。2、技术方案:一种通用的知识图谱云服务系统,包括领域专家终端、企业用户终端和云端服务器,其特征在于:所述的领域专家终端与云端服务器网络连接;所述的企业用户终端与云端服务器网络连接。领域专家通过领域专家终端定义本领域知识图谱上传至云端服务器;所述知识图谱为使用包含上下文运算符的生成文法描述的知识图谱。企业用户通过企业用户终端向云端服务器提交定制的文本分析服务请求,以及查看文本与知识图谱的匹配结果请求;所述企业用户终端包括服务定制模块和结果展示模块;所述服务定制模块为企业用户定制的文本分析服务请求的类型;所述结果展示模块将云端服务器的分析结果进行可视化展示。所述云端服务器包括数据采集模块、文本预处理模块、知识抽取引擎、知识学习模块、知识推理模块、领域知识图谱库。所述数据采集模块采集WEB外部数据和企业内部数据。所述文本预处理模块对数据采集模块采集的数据进行处理;处理的方法包括自然语言处理的基本手段;所述自然语言处理的基本手段为中文分词、词性标注、命名实体抽取、通用概念与关系抽取中的一种或者多种。所述知识抽取引擎将经过文本预处理模块的数据和信息进行提炼出各种有价值的知识。所述知识学习模块将经过知识抽取引擎的数据和信息进行半自动或自动的去定义知识,积累和扩大概念、关系和推理规则集合。所述知识推理模块将经过知识抽取引擎的数据和信息进行本领域内的各种数据和标注结果经由深度神经网络技术以及机器学习转化为可以对新数据进行分类、推理和预测的模型。所述领域知识图谱库描述各个领域和行业内中存在的各种实体或概念及其关系,并构成一张巨大的语义网络图,其中节点表示实体或概念,其中节点表示实体或概念,边表示属性或关系构成。进一步地,所述上下文环境计算符号包括但不限于:“SENT”:作用域内的所有概念必须出现在一条语句中;“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;“ORD”:作用域内的所有概念顺序出现;“CONT”:作用域内的所有概念相邻;“AND”:作用域中的所有字句必须同时在输入文本中出现“OR”:作用域中的所有字句至少有有一个在输入文本中出现“NOT”:作用域中的字句不能出现,否则输入文本不匹配。进一步地,所述概念及概念之间的关系是使用一种包含一组上下文环境计算符号的生成文法来定义的;其中待抽取的概念和关系以非终结符形式体现在程序中,字符串、正则表达式和计算符号以终结符形式体现;使用包含上下文计算符的生成文法是基于TML语言实现。进一步地,企业用户向云端服务器提交定制的文本分析服务请求的类型包括但不限于知识抽取、类目标签、情感识别、关系挖掘。所述知识抽取为对行业领域的文本段落,自动将实体、对象抽取出来,形成结构化的可移植信息。所述类目标签为对行业领域的文本段落,进行信息分类,同时为各类信息打上标签。所述情感识别为对行业领域文本段落,进行智能化的正负面情感判别,同时基于判别结果输出足够细粒度的详情信息。关系挖掘为任意搜索特定领域内的实体概念,系统将会就该概念通过网络爬虫,获取到更多与之相关的概念、关系等信息,同时将这些信息赋予不同的权重。进一步地,所述知识抽取引擎包括编译器和运行处理机。所述编译器将由领域专家编写大量的知识进行推理规则编译优化,以及基于标注语料训练机器学习模型。所述运行处理机将训练好的模型和引擎应用于分析数据的工作;其分析数据的工作在运行虚拟机中完成;其分析数据实现的算法包括机器学习算法、认知计算的模块、自然语言理解、知识图谱与web搜索。进一步地,所述知识学习模块包括概念学习子模块和概念关系学习子模块。所述概念学习子模块:利用对概念的内部组成的学习方法和对概念的外部环境的学习方法扩大知识;概念的内部组成的学习方法利用概念的语义相似性来进行学习;对概念的外部环境的学习方法利用概念的上下文环境特征来进行学习;并根据标注结果识别新概念。所述概念关系学习子模块:将匹配了概念关系的文本作为训练语料,将关系抽取作为深度学习的分类问题,学习特定的上下文关系可以确定此种关系。进一步地,所述知识推理模块包括逻辑推理子模块和关系推理子模块。所述逻辑推理子模块:区分事实要素和结果要素,然后基于历史数据预测新案例结果。所述关系推理子模块:基于语义理解文本匹配建立得到的关系网,判断新的关系是否能成立。进一步地,所述数据采集模块、所述文本预处理模块、所述知识抽取引擎是基于TML语言实现。3、有益效果:本专利技术提供的一种通用的知识图谱云服务系统具有能够在任何行业或应用领域快速建立基于大规模语义知识图谱的认知计算能力,并且结合了领域内的数据优化领域内人工智能,可以帮助不同行业对海量的非结构化文本做语义理解,抽取其中的知识,并进行学习和推理,以开展类似于辅助决策的工作。附图说明图1为本专利技术的系统结构图;图2为本发本文档来自技高网...

【技术保护点】
1.一种通用的知识图谱云服务系统,包括领域专家终端、企业用户终端和云端服务器,其特征在于:所述的领域专家终端与云端服务器网络连接;所述的企业用户终端与云端服务器网络连接;/n领域专家通过领域专家终端定义本领域知识图谱上传至云端服务器;所述知识图谱为使用包含上下文运算符的生成文法描述的知识图谱;/n企业用户通过企业用户终端向云端服务器提交定制的文本分析服务请求,以及查看文本与知识图谱的匹配结果请求;所述企业用户终端包括服务定制模块和结果展示模块;所述服务定制模块为企业用户定制的文本分析服务请求的类型;所述结果展示模块将云端服务器的分析结果进行可视化展示;/n所述云端服务器包括数据采集模块、文本预处理模块、知识抽取引擎、知识学习模块、知识推理模块、领域知识图谱库;/n所述数据采集模块采集WEB外部数据和企业内部数据;/n所述文本预处理模块对数据采集模块采集的数据进行处理;处理的方法包括自然语言处理的基本手段;所述自然语言处理的基本手段为中文分词、词性标注、命名实体抽取、通用概念与关系抽取中的一种或者多种;/n所述知识抽取引擎将经过文本预处理模块的数据和信息进行提炼出各种有价值的知识;/n所述知识学习模块将经过知识抽取引擎的数据和信息进行半自动或自动的定义知识,积累和扩大概念、关系和推理规则集合;/n所述知识推理模块将经过知识抽取引擎处理的数据和信息进行本领域内的各种数据和标注结果,并经由深度神经网络技术以及机器学习转化为可以对新数据进行分类、推理和预测的模型;/n所述领域知识图谱库描述各个领域和行业内中存在的各种实体或概念及其关系,并构成一张巨大的语义网络图,其中节点表示实体或概念,边表示属性或关系构成。/n...

【技术特征摘要】
1.一种通用的知识图谱云服务系统,包括领域专家终端、企业用户终端和云端服务器,其特征在于:所述的领域专家终端与云端服务器网络连接;所述的企业用户终端与云端服务器网络连接;
领域专家通过领域专家终端定义本领域知识图谱上传至云端服务器;所述知识图谱为使用包含上下文运算符的生成文法描述的知识图谱;
企业用户通过企业用户终端向云端服务器提交定制的文本分析服务请求,以及查看文本与知识图谱的匹配结果请求;所述企业用户终端包括服务定制模块和结果展示模块;所述服务定制模块为企业用户定制的文本分析服务请求的类型;所述结果展示模块将云端服务器的分析结果进行可视化展示;
所述云端服务器包括数据采集模块、文本预处理模块、知识抽取引擎、知识学习模块、知识推理模块、领域知识图谱库;
所述数据采集模块采集WEB外部数据和企业内部数据;
所述文本预处理模块对数据采集模块采集的数据进行处理;处理的方法包括自然语言处理的基本手段;所述自然语言处理的基本手段为中文分词、词性标注、命名实体抽取、通用概念与关系抽取中的一种或者多种;
所述知识抽取引擎将经过文本预处理模块的数据和信息进行提炼出各种有价值的知识;
所述知识学习模块将经过知识抽取引擎的数据和信息进行半自动或自动的定义知识,积累和扩大概念、关系和推理规则集合;
所述知识推理模块将经过知识抽取引擎处理的数据和信息进行本领域内的各种数据和标注结果,并经由深度神经网络技术以及机器学习转化为可以对新数据进行分类、推理和预测的模型;
所述领域知识图谱库描述各个领域和行业内中存在的各种实体或概念及其关系,并构成一张巨大的语义网络图,其中节点表示实体或概念,边表示属性或关系构成。


2.根据权利要求1所述的一种通用的知识图谱云服务系统,其特征在于:所述上下文环境计算符号包括但不限于:
“SENT”:作用域内的所有概念必须出现在一条语句中;
“DIST_n”:作用域内的任何两个相邻概念之间的距离不能大于n;
“ORD”:作用域内的所有概念顺序出现;
“CONT”:作用域内的所有概念相邻;
“AND”:作用域中的所有字句必须同时在输入文本中出现
“OR”:作用域中的所有字句至少有有一个在输入文本中出现
“NOT”:作用域中的字句不能出现,否则输入文本不匹配。


3.根据权利要求1所述的一种通用的知识图谱云服务系统,其特征在于:
所述概念及概念之间的关系是使用一种包含一组上下文环境计算符号的生成文法来定义的;其中待抽取的概...

【专利技术属性】
技术研发人员:孟涛李佳静
申请(专利权)人:南京网感至察信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1