一种数据处理的方法、装置、计算机存储介质及终端制造方法及图纸

技术编号:21432110 阅读:30 留言:0更新日期:2019-06-22 11:53
一种数据处理的方法、装置、计算机存储介质及终端,包括:根据包括实体、关系和事件的数据信息,建立数据模型;根据建立的数据模型构建知识图谱;通过构建的知识图谱进行数据检索。本发明专利技术实施例提升了知识图谱的分析质量。

【技术实现步骤摘要】
一种数据处理的方法、装置、计算机存储介质及终端
本文涉及但不限于知识图谱技术,尤指一种数据处理的方法、装置、计算机存储介质及终端。
技术介绍
知识图谱从其服务领域上可以分为通用知识图谱和领域知识图谱。当前大部分已经发布的开放知识图谱都是通用知识图谱,它的数据来源通常来自于互联网开放数据,它强调的是广度,及融合更多的实体;较领域知识图谱,通用知识图谱准确度不够高,且受概念范围的影响,很难借助本体库对公理、规则及约束条件的支持能力规范其实体、属性、实体间的关系;通用知识图谱主要应用于智能搜索等领域。领域知识图谱通常需要依靠特定行业的数据来构建,具有特定的行业意义。领域知识图谱中,实体的属性与数据模式往往比较丰富,需要考虑到不同的业务场景与使用人员。因此,通用知识图谱的数据模型在领域知识图谱构建中会有很多局限。目前,公共安全行业的知识图谱数据模型较成熟的有实体-链接-属性(ELP,Entity-Link-Property)数据模型和动态本体(DynamicOntology)数据模型;其中,在ELP数据模型中,实体:代表一个真实的对象;包括但不限于:人、车等;链接:表示两个实体之间的联系及关联信息;如人和车属于拥有关联;属性:用于存储实体或者链接的特征信息;以实体为人作为示例,其属性可以包括:姓名、出生时间、头发颜色等;动态本体数据模型需要灵活构建对象(Object)和对象组件(ObjectComponents);其中,动态本体数据模型中,属性(Properties)是指文本类的属性值;媒体(Media)是指:图片、视频、文档、二进制数据等文件;注释(Notes)为:无结构的自由文本的容器;关系(Relationship)用于:描述不同对象间的联系。上述两种数据模型基本类似,都是“实体-关系-属性”数据模型为基础,实体属性宽泛、关系简单及实体-关系拓扑结构较为粗浅,影响了知识图谱的分析效果。
技术实现思路
以下是对本文详细描述的主题的概述。本概述并非是为了限制权利要求的保护范围。本专利技术实施例提供一种数据处理的方法、装置、计算机存储介质及终端,能够提升知识图谱的分析质量。本专利技术实施例提供了一种数据处理的方法,包括:根据包括实体、关系和事件的数据信息,建立数据模型;根据建立的数据模型构建知识图谱;通过构建的知识图谱进行数据检索。可选的,所述建立数据模型之前,所述方法还包括通过以下方式获取所述实体:对预先存储的源数据进行处理后,建立用于获取所述数据信息的知识库;所述知识库中包含的所述源数据为结构化数据时,对所述源数据进行预处理后,通过预先设定的实体匹配规则构建所述实体;所述知识库中包含的所述源数据为非结构化数据时,通过文本挖掘技术、或实体标注与识别技术对所述源数据进行处理后,构建所述实体。可选的,所述实体包括:物理实体和/或虚拟实体;其中,所述物理实体包括以下一种或一种以上实体:人、车辆、房屋;所述虚拟实体包括以下一种或一种以上实体:组织机构、虚拟身份。可选的,所述实体包含以下一种或一种以上属性:标签属性、自然属性、一个或一个以上主键属性;其中,所述主键属性用于区分各实体;所述标签属性包括依据业务数据计算或归纳出的以下一种或一种以上特征:基础特征、行为特征、关系特征、地理位置;所述自然属性包括:从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上属性信息:身高、年龄、籍贯;所述自然属性包括根据预设策略划分的主属性和/或副属性。可选的,所述关系包括以下一种或一种以上关系:显性关系、隐性关系;其中,所述显性关系包括通过数据之间的直接关联构建获得的关系;所述隐性关系包括基于数据之间的时间、空间、语义和/或特征数据的关联,通过预设的关系匹配规则或机器学习方式获得的关系。可选的,所述关系包括所述显性关系时,所述显性关系包括以下一种或一种以上关系:父子关系、夫妻关系、同学关系、财产所属关系;所述关系包括所述隐性关系时,所述隐性关系包括以下一种或一种以上关系:同行关系、同住关系、伴随关系、同案关系。可选的,所述建立数据模型之前,所述方法还包括:基于流式消息队列获取所述事件;其中,所述事件包括以下一种或一种以上内容:火车出行事件、车辆卡口事件、网吧事件、住宿事件。可选的,所述基于流式消息队列获取所述事件包括:基于流式消息队列,从所述实体的行为数据中获取所述事件;其中,所述行为数据包括以下一种或一种以上数据:主体、客体、时间、地点、时间段及事件内容;所述事件包括以下一种或一种以上信息:主体、客体、时间维度信息、地理维度信息。可选的,所述通过构建的知识图谱进行数据检索包括:接收进行数据检索的检索信息;根据接收到的检索信息对构建的所述知识图谱进行数据的检索处理;其中,所述检索信息包括包含以下一种或一种以上内容的信息:所述实体的属性、所述关系的种类、和/或所述事件的内容。另一方面,本专利技术实施例还提供一种数据处理的装置,包括:建模单元、图谱单元和检索单元;其中,建模单元用于:根据包括实体、关系和事件的数据信息,建立数据模型;图谱单元用于:根据建立的数据模型构建知识图谱;检索单元用于:通过构建的知识图谱进行数据检索。可选的,所述装置还包括实体获取单元,用于:对预先存储的源数据进行处理后,建立用于获取所述数据信息的知识库;所述知识库中包含的所述源数据为结构化数据时,对所述源数据进行预处理后,通过预先设定的实体匹配规则构建所述实体;所述知识库中包含的所述源数据为非结构化数据时,通过文本挖掘技术、或实体标注与识别技术对所述源数据进行处理后,构建所述实体。可选的,所述实体包括:物理实体和/或虚拟实体;其中,所述物理实体包括以下一种或一种以上实体:人、车辆、房屋;所述虚拟实体包括以下一种或一种以上实体:组织机构、虚拟身份。可选的,所述实体包含以下一种或一种以上属性:标签属性、自然属性、一个或一个以上主键属性;其中,所述主键属性用于区分各实体;所述标签属性包括依据业务数据计算或归纳出的以下一种或一种以上特征:基础特征、行为特征、关系特征、地理位置;所述自然属性包括:从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上属性信息:身高、年龄、籍贯;所述自然属性包括根据预设策略划分的主属性和/或副属性。可选的,所述关系包括以下一种或一种以上关系:显性关系、隐性关系;其中,所述显性关系包括通过数据之间的直接关联构建获得的关系;所述隐性关系包括基于数据之间的时间、空间、语义和/或特征数据的关联,通过预设的关系匹配规则或机器学习方式获得的关系。可选的,所述关系包括所述显性关系时,所述显性关系包括以下一种或一种以上关系:父子关系、夫妻关系、同学关系、财产所属关系;所述关系包括所述隐性关系时,所述隐性关系包括以下一种或一种以上关系:同行关系、同住关系、伴随关系、同案关系。可选的,所述装置还包括事件获取单元,用于:基于流式消息队列获取所述事件;其中,所述事件包括以下一种或一种以上内容:火车出行事件、车辆卡口事件、网吧事件、住宿事件。可选的,所述事件获取单元具体用于:基于流式消息队列,从所述实体的行为数据中获取所述事件;其中,所述行为数据包括以下一种或一种以上数据:主体、客体、时间、地点、时间段及事件内容;所述事件包括以下一种或一种以上信息:主体、本文档来自技高网
...

【技术保护点】
1.一种数据处理的方法,其特征在于,包括:根据包括实体、关系和事件的数据信息,建立数据模型;根据建立的数据模型构建知识图谱;通过构建的知识图谱进行数据检索。

【技术特征摘要】
1.一种数据处理的方法,其特征在于,包括:根据包括实体、关系和事件的数据信息,建立数据模型;根据建立的数据模型构建知识图谱;通过构建的知识图谱进行数据检索。2.根据权利要求1所述的方法,其特征在于,所述建立数据模型之前,所述方法还包括通过以下方式获取所述实体:对预先存储的源数据进行处理后,建立用于获取所述数据信息的知识库;所述知识库中包含的所述源数据为结构化数据时,对所述源数据进行预处理后,通过预先设定的实体匹配规则构建所述实体;所述知识库中包含的所述源数据为非结构化数据时,通过文本挖掘技术、或实体标注与识别技术对所述源数据进行处理后,构建所述实体。3.根据权利要求1或2所述的方法,其特征在于,所述实体包括:物理实体和/或虚拟实体;其中,所述物理实体包括以下一种或一种以上实体:人、车辆、房屋;所述虚拟实体包括以下一种或一种以上实体:组织机构、虚拟身份。4.根据权利要求1或2所述的方法,其特征在于,所述实体包含以下一种或一种以上属性:标签属性、自然属性、一个或一个以上主键属性;其中,所述主键属性用于区分各实体;所述标签属性包括依据业务数据计算或归纳出的以下一种或一种以上特征:基础特征、行为特征、关系特征、地理位置;所述自然属性包括:从所述数据信息提取的属性值;所述属性值包括以下一种或一种以上属性信息:身高、年龄、籍贯;所述自然属性包括根据预设策略划分的主属性和/或副属性。5.根据权利要求1所述的方法,其特征在于,所述关系包括以下一种或一种以上关系:显性关系、隐性关系;其中,所述显性关系包括通过数据之间的直接关联构建获得的关系;所述隐性关系包括基于数据之间的时间、空间、语义和/或特征数据的关联,通过预设的关系匹配规则或机器学习方式获得的关系。6.根据权利要求5所述的方法,其特征在于,所述关系包括所述显性关系时,所述显性关系包括以下一种或一种以上关系:父子关系、夫妻关系、同学关系、财产所属关系;所述关系包括所述隐性关系时,所述隐性关系包括以下一种或一种以上关系:同行关系、同住关系、伴随关系、同案关系。7.根据权利要求1、2、5或6所述的方法,其特征在于,所述建立数据模型之前,所述方法还包括:基于流式消息队列获取所述事件;其中,所述事件包括以下一种或一种以上内容:火车出行事件、车辆卡口事件、网吧事件、住宿事件。8.根据权利要求7所述的方法,其特征在于,所述基于流式消息队列获取所述事件包括:基于流式消息队列,从所述实体的行为数据中获取所述事件;其中,所述行为数据包括以下一种或一种以上数据:主体、客体、时间、地点、时间段及事件内容;所述事件包括以下一种或一种以上信息:主体、客体、时间维度信息、地理维度信息。9.根据权利1、2、5或6所述的方法,其特征在于,所述通过构建的知识图谱进行数据检索包括:接收进行数据检索的检索信息;根据接收到的检索信息对构建的所述知识图谱进行数据的检索处理;其中,所述检索信息包括包含以下一种或一种以上内容的信息:所述实体的属性、所述关系的种类、和/或所述事件的内容。10.一种数据处理的装置,其特征在于,包括:建模单元、图谱单元和检索单元;其中,建模单元用于:根据包括实体、关系和事件的数据信息,建立数据模型;图谱单元用于:根据建立的数据模型构建知识图谱;检索单元用于:通过构建的知识图...

【专利技术属性】
技术研发人员:陈媛任鑫琦
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1