一种基于次级属性图的非结构化数据查询方法及系统技术方案

技术编号:26259335 阅读:34 留言:0更新日期:2020-11-06 17:53
本发明专利技术公开了一种基于次级属性图的非结构化数据查询方法及系统。本方法为:1)对于一目标数据库,将数据库中每条记录的非结构化数据作为对应记录的一级属性;2)提取每个一级属性中的内在信息作为该一级属性的次级属性图;3)对该目标数据库的查询语言进行扩展,增加语义操作符“‑>”;对该目标数据库的查询引擎进行扩展,用于编译并执行符合该语义操作符“‑>”语法的查询语句;4)查询引擎根据查询条件从缓存系统中查询符合查询条件的缓存结果,如果没有匹配结果,则根据该查询条件中的一级属性查找该目标数据库中匹配的记录,然后从匹配记录的一级属性中提取次级属性图并分别与该查询条件中的次级属性图进行匹配,并返回匹配结果。

【技术实现步骤摘要】
一种基于次级属性图的非结构化数据查询方法及系统
本专利技术涉及非结构化数据、数据查询语言、人工智能,图数据模型等
,针对现有技术无法方便地对非结构化数据进行信息查询,对非结构化数据中信息抽取和表示能力弱的现状,提出一种基于次级属性图实现非结构化数据表示与查询的方法及系统。
技术介绍
非结构化数据在网络数据中占有较大的比重,图片、录音、视频、无格式长文本等内容均属于非结构化数据。当前,结构化数据的存储和查询相关的技术比较成熟,结构化数据的存储与管理的相关解决方案已经很完善。但是随着技术的进步和时代的发展,数据的来源越来越广,数量越来越多,形式越来越复杂。在许多应用场景之中,工程人员需要面对的不仅仅是格式规范的结构化数据,还有带自描述结构的半结构化数据甚至是没有固定结构的非结构化数据。显然,因为结构上的灵活性,这种数据有丰富的扩展性和极高的信息表达自由度。但是由于其格式上的自由性,这种非结构化数据的存储和管理也是一个困扰业界多年的问题。当前非结构化数据的管理和查询技术主要集中于根据非结构化数据的元数据,如文件名、大小、文件类别、标签值本文档来自技高网...

【技术保护点】
1.一种基于次级属性图的非结构化数据查询方法,其步骤包括:/n1)对于一目标数据库,将该目标数据库中每条记录的非结构化数据作为对应记录的一级属性;/n2)提取每个一级属性中的内在信息,然后从内在信息中提取节点及节点的属性构建一属性图,作为该一级属性的次级属性图;其中该次级属性图中利用“()”表示节点、“{}”表示节点的属性集、“-[]-”表示节点之间的边;/n3)对该目标数据库的查询语言进行扩展,设置符号“()”、“{}”、“-[]-”用于描述非结构化数据的内在信息,以及设置一次级属性图抽取符号“->”,该符号“->”是一个二元连接符,左侧连接一级属性,右侧连接次级属性图的名称,该...

【技术特征摘要】
1.一种基于次级属性图的非结构化数据查询方法,其步骤包括:
1)对于一目标数据库,将该目标数据库中每条记录的非结构化数据作为对应记录的一级属性;
2)提取每个一级属性中的内在信息,然后从内在信息中提取节点及节点的属性构建一属性图,作为该一级属性的次级属性图;其中该次级属性图中利用“()”表示节点、“{}”表示节点的属性集、“-[]-”表示节点之间的边;
3)对该目标数据库的查询语言进行扩展,设置符号“()”、“{}”、“-[]-”用于描述非结构化数据的内在信息,以及设置一次级属性图抽取符号“->”,该符号“->”是一个二元连接符,左侧连接一级属性,右侧连接次级属性图的名称,该语义操作符“->”的使用方法为“a->b”,其含义为对于一级属性a,查询其中次级属性图名称b;对该目标数据库的查询引擎进行扩展,用于编译并执行符合该语义操作符“->”语法的查询语句;
4)查询引擎根据查询条件从缓存系统中查询符合查询条件的缓存结果,如果有匹配的缓存结果,则将其返回;如果没有匹配的查询结果,则根据该查询条件中的一级属性查找该目标数据库中匹配的记录,然后从匹配记录的一级属性中提取次级属性图并分别与该查询条件中的次级属性图进行匹配,并返回匹配结果。


2.如权利要求1所述的方法,其特征在于,节点包含类别和属性集信息,边包含类别信息。


3.如权利要求1或2所述的方法,其特征在于,通过直接输入一级属性及次级属性图进行查询;或者先输入次级属性图中的信息查询次级属性图,然后输入一级属性及从所查询次级属性图中所选的次级属性图进行查询。


4.如权利要求1所述的方法,其特征在于,建立一算法映射库,设置各AI算法与不同次级属性图之间的对应关系,用于调用不同的AI算法提取一级属性中对应的次级属性图。


5.一种基于次级属性图的非结构化数据查询系统,其特征在于,包括信息抽取器、任务调度器和查询引擎;其中,
信息抽取器,用于从目标数据库中提取每条记录的非结构化数据作为对应记录的一级属性;以及调用任务调度器提取每个一级属性中的内在信息,然后从内在信息中提取节点及节点的属性构建一属性图,作为该一级属性的次级属性图;其中该次级属性图中利用“()”表示节点、“{}”表示节点的属性集、“-[]-”表示节点之间的边;
任务调度器,用于调用不同的AI算法从一级属性的内在信息中提取不同的次级属性图;
查询引擎,用于根据查询条件从缓存系统中查询符合查询条件的缓存结果,如果有匹配的缓存结果,则将其返回;如果没有匹配的查询结果,则根据该查询条件中的一级属性查找该目标数据库中匹配的记录,然后从匹配记录的一级属性中提取次级属性图并分别与该查询条件中的次级属性图进行匹配,并返回匹配结果;
其中,对该目标数据库的查询语言进行扩展,设置符号“()”、“{}”、“-[]-”用于描述非结构化数据的内在信息,以及设置一次级属性图抽取符号“->”,该符号“->”是一个二元连接符,左侧连接一级属性,右侧连接次级属性图的名称,该语义操作符“->”的使用方法为“a->b”,其含义为对于一级属性a,查询其中次级属性图名称b;对该目标数据库的查询引擎进行扩展,用于编译并执行符合该语义操作符“->”语法的查...

【专利技术属性】
技术研发人员:沈志宏赵子豪周园春
申请(专利权)人:中国科学院计算机网络信息中心
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1