基于领域知识图谱本体中的对象根类型设计方法及系统技术方案

技术编号:22641815 阅读:38 留言:0更新日期:2019-11-26 16:11
本发明专利技术公开了一种基于领域知识图谱本体中的对象根类型设计方法及系统,其中,所述方法包括:对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;根据对象根类型将实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;对文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。在本发明专利技术实施例中,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。

Design method and system of object root type based on domain knowledge map Ontology

The invention discloses an object root type design method and system based on the domain knowledge map ontology, wherein the method comprises: type classification of acquired data, acquisition of structured data, semi-structured data and unstructured data; sequential object construction of structured data, semi-structured data and unstructured data based on the domain knowledge map , to obtain entity object, event object, text object and multimedia object; to convert entity object, event object, text object and multimedia object into entity type, event type, text type and multimedia type according to object root type; to process knowledge of text type and multimedia type into entity type and event type in turn, to obtain Transform processing results. In the embodiment of the invention, event type, text type and multimedia type are added and extended to the knowledge of classified expression field, which can better describe various typical field scenes.

【技术实现步骤摘要】
基于领域知识图谱本体中的对象根类型设计方法及系统
本专利技术涉及数据处理
,尤其涉及一种基于领域知识图谱本体中的对象根类型设计方法及系统。
技术介绍
知识图谱(KnowledgeGraph,KG)旨在描述客观世界的概念、实体、事件以及他们之间的关系;知识图谱的本质是有向图结构的知识库,是人工智能应用不可或缺的基础资源;知识图谱构建的基础是建立知识图谱的数据模型,即采用什么样的方式来表达知识,也称知识建模或知识体系构建,本质上就是构建一个本体模型对知识进行描述;本体(Ontology)源自西方哲学,用以描述世界上的客观存在;比较流行的本体概念是美国斯坦福大学知名学者Gruber提出的,即本体是关于某个实体概念体系的明确规范的说明。知识图谱分为两类:通用知识图谱和领域知识图谱;通用的知识图谱可以认为是百科全书,比如Google知识图谱、DBpedia、YAGO和Freebase等;领域知识图谱是基于领域数据构建的知识图谱,用于特定领域内的分析研究工作。通用知识图谱和领域知识图谱,从基础架构上基本相同,但由于领域知识图谱面向特定的领域数据和场景,具有更深的知识概念层级体系深度和更细的知识表示粒度。Sumo(SuggestedUpperMergedOntology)及其领域本体是当今存在的最大的公共本体,主要用于搜索、自然语言处理和推理等应用,包括约25000多个词条(terms)和80000多条公理(axiom)。Schema.org是2011年起,由Bing、Google、Yahoo和Yandex等搜索引擎公司共同支持的语义网项目。截至目前为止,总共包括800多项的对象类型,上述几个搜索引擎的知识图谱在此基础上扩展实现。领域知识图谱刚刚起步,国内学者做了很多探索性研究,涉及农业、医药、植物学等领域,对不同层次的本体模型进行了分析,如顶层本体、领域上层本体和领域应用本体。理论上,领域知识图谱的本体可参照通用知识图谱的本体设计,但这种仅以实体为根类型的分类方法,在领域知识图谱工程中会遇到很多问题。一方面这种分类方法太过复杂,分析人员往往无法直接理解;另一方面,在描述领域的对象如文本类型方面没有足够的针对性。领域知识图谱不是为了描述整个世界,而是要解决领域的业务需求,所以需要为领域设计专门的本体根类型;不同的领域需要关注的知识重点也各不相同,除了本领域中主要的实体之外,一些领域还关注与实体相关的事件行为,如电话的通话记录、个人的订票信息、银行卡的交易记录等;很多领域需要研究新闻文章、学术论文等文本对象;随着计算机和互联网的发展,多媒体也成为某些领域的关注对象,比如新闻视频、短视频、监控录像等。对象根类型的分类是构建领域知识图谱的基础工作,而现有流行的通用知识图谱并没有按照领域数据的特点分类,唯一的根类型就是实体,这给领域知识表达带来缺陷,无法完整表达如文本、视频图片等知识和关联。
技术实现思路
本专利技术的目的在于克服现有技术的不足,本专利技术提供了一种基于领域知识图谱本体中的对象根类型设计方法及系统,增加了事件类型、文本类型和多媒体类型,并扩展到分类表达领域的知识中,可以更好的描述各种典型的领域场景。为了解决上述技术问题,本专利技术实施例提供了一种基于领域知识图谱本体中的对象根类型设计方法,所述方法包括:对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。可选的,所述结构化数据为领域产生的数据,保存在关系数据库的二维表中;所述半结构化数据为文本数据;所述非结构化数据包括图片数据、声音数据和视频数据。可选的,所述根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型,包括:基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型。可选的,所述对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果,包括:对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。可选的,所述对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,包括:所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工;所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工。可选的,所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工,包括:依次通过文本分词、分类聚类和情感分析算法从所述文本类型中,获取领域关键词、地区分类、文本情感态度、主要观点;根据领域关键词、地区分类、文本情感态度、主要观点提取所述文本类型的实体对象和属性;基于人工确认的交互方法精确提取的实体对象和关系。可选的,所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工,包括:基于人工标注的方式对所述多媒体类型进行分类,获取分类后的多媒体类型;基于语音识别算法将分类后的多媒体类型中的音频文件转化为文本文件;基于文本分析算法对所述文本文件进行文字识别,获取识别结果;基于人脸识别算法对分类后的多媒体类型进行人物识别及标签提取处理,提取人物标签;对所述识别结果和所述人物标签进行人工确认交互方式进行标识处理,获取多媒体场景、事件、人物和关系。另外,本专利技术实施例还提供了一种基于领域知识图谱本体中的对象根类型设计系统,所述系统包括:类型分类模块:用于对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;对象构建模块:用于基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;对象转化模块:用于根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;知识加工模块:用于对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。可选的,所述对象转化模块包括:对象根类型设计单元:用于基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、本文档来自技高网
...

【技术保护点】
1.一种基于领域知识图谱本体中的对象根类型设计方法,其特征在于,所述方法包括:/n对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;/n基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;/n根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;/n对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。/n

【技术特征摘要】
1.一种基于领域知识图谱本体中的对象根类型设计方法,其特征在于,所述方法包括:
对获取的数据进行类型分类,获取结构化数据、半结构化数据以及非结构化数据;
基于领域知识图谱对结构化数据、半结构化数据以及非结构化数据依次进行对象构建,获得实体对象、事件对象、文本对象以及多媒体对象;
根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型;
对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果。


2.根据权利要求1所述的对象根类型设计方法,其特征在于,所述结构化数据为领域产生的数据,保存在关系数据库的二维表中;所述半结构化数据为文本数据;所述非结构化数据包括图片数据、声音数据和视频数据。


3.根据权利要求1所述的对象根类型设计方法,其特征在于,所述根据对象根类型将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型,包括:
基于所述领域知识图谱将所述对象根类型设计为实体类型、事件类型、文本类型和多媒体类型;
基于人工导入和爬虫读取算法将所述实体对象、事件对象、文本对象以及多媒体对象转化为实体类型、事件类型、文本类型以及多媒体类型。


4.根据权利要求1所述的对象根类型设计方法,其特征在于,所述对所述文本类型以及多媒体类型依次进行知识加工转换为实体类型和事件类型处理,获取转换处理结果,包括:
对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,获取所述文本类型和所述多媒体类型的实体对象、事件对象以及关系;
基于所述文本类型和所述多媒体类型的实体对象、事件对象以及关系转换为实体类型和事件类型,获取转换处理结果。


5.根据权利要求4所述的对象根类型设计方法,其特征在于,所述对所述文本类型和所述多媒体类型依次基于人工标注和算法分析辅助进行知识转换加工,包括:
所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工;
所述对所述多媒体类型基于人工标注和算法分析辅助进行知识转换加工。


6.根据权利要求5所述的对象根类型设计方法,其特征在于,所述对所述文本类型基于人工标注和算法分析辅助进行知识转换加工,包括:
依次通过文本分词、分类聚类和情感分析算法从所述文本类型中,获...

【专利技术属性】
技术研发人员:王亚强李春保吴庆蓉
申请(专利权)人:广州拓尔思大数据有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1