维度数据处理方法和装置制造方法及图纸

技术编号:23704656 阅读:56 留言:0更新日期:2020-04-08 11:08
本发明专利技术公开了一种维度数据处理方法和装置。该方法包括:接收属性查询指令,其中,属性查询指令用于从维度索引文件中查询目标属性;响应于属性查询指令查询对应的维度索引文件,其中,每个维度对应一个维度索引文件,每个维度索引文件中存储该维度对应的属性数据;从维度索引文件中查找得到目标属性。通过本发明专利技术,达到了提高维度数据查询效率的效果。

Dimension data processing methods and devices

【技术实现步骤摘要】
维度数据处理方法和装置
本专利技术涉及数据处理领域,具体而言,涉及一种维度数据处理方法和装置。
技术介绍
司法文书的解析从本质上讲是将一篇非结构化(自然语言表述)的法律文书变成结构化(计算机可以识别和处理)的信息集合,简单讲就是要从一篇法律文书中提取出需要的一个或多个信息点,分别将其映射成一个固定的数据结构记录下来,其中每一个信息点称为一个“维度”,由多个“维度”组成的集合称之为“维度集”。由此可知,一篇文书经过解析就对应生成了一个“维度集”,那么对于包含N篇司法文书库经过解析后就会生成N个“维度集”(N通常为千万级别的数据),可以利用Mongodb数据库将这庞大的解析结果数据存储起来。现有存储方案中中,利用Database下一个Collection将其全部存储起来,也即将N篇法律文书中的所有维度集解析出来存储到一个索引中。虽然上述的存储方案在存储数据方面有很大便利,它使得插入和顺序读取的过程变得非常简便,但是它在数据查询方面表现出的性能非常差。因为数据只是按照插入顺序依次存储在mongodb中,而不对维度建立索引,那么针对维度的每一次查询都会是一次全盘扫描。而且每个MongodbCollection所能创建的索引数据是有255个限制的,不可能对于一个数量持续在增长的维度集建立全部的索引,也不可能在每一次查询之前临时去对索引查询的维度建立索引,因为那会花费数个小时才成完成,极大阻碍生产效能。针对相关技术中所有维度数据存储到一个索引中导致查询速度慢的问题,目前尚未提出有效的解决方案。专利
技术实现思路
本专利技术的主要目的在于提供一种维度数据处理方法和装置,以解决所有维度数据存储到一个索引中导致查询速度慢的问题。为了实现上述目的,根据本专利技术的一个方面,提供了一种维度数据处理方法,该方法包括:接收属性查询指令,其中,所述属性查询指令用于从维度索引文件中查询目标属性;响应于所述属性查询指令查询对应的维度索引文件,其中,每个维度对应一个维度索引文件,每个维度索引文件中存储该维度对应的属性数据;从所述维度索引文件中查找得到所述目标属性。进一步地,在响应于所述属性查询指令查询对应的维度索引文件之前,所述方法还包括:获取待提取维度信息的文本集合;按照预设规则解析出所述文本集合中的每个文本文件的目标维度的数据;将所述目标维度的数据存储到对应的维度索引文件中,其中,每个目标维度对应一个维度索引文件,第一维度索引文件中存储有文本集合中每个文本文件的目标维度的数据。进一步地,在将所述目标维度的数据存储到对应的维度索引文件中之前,所述方法还包括:对每个维度分别建立一级索引;通过MongoDB的索引机制对每个维度和对应维度下的每个属性建立二级索引。进一步地,在按照预设规则解析出所述文本集合中的每个文本文件的目标维度的数据之后,所述方法还包括:将每个文本文件的目标维度的数据与所述文本文件的身份标识信息绑定保存,得到携带有文本文件的身份标识信息的目标维度数据,将所述目标维度的数据存储到对应的维度索引文件中包括:将携带有文本文件的身份标识信息的目标维度数据存储到对应的维度索引文件中。为了实现上述目的,根据本专利技术的另一方面,还提供了一种维度数据处理装置,该装置包括:接收单元,用于接收属性查询指令,其中,所述属性查询指令用于从维度索引文件中查询目标属性;查询单元,用于响应于所述属性查询指令查询对应的维度索引文件,其中,每个维度对应一个维度索引文件,每个维度索引文件中存储该维度对应的属性数据;查找单元,用于从所述维度索引文件中查找得到所述目标属性。进一步地,所述装置还包括:获取单元,用于在响应于所述属性查询指令查询对应的维度索引文件之前,获取待提取维度信息的文本集合;解析单元,用于按照预设规则解析出所述文本集合中的每个文本文件的目标维度的数据;存储单元,用于将所述目标维度的数据存储到对应的维度索引文件中,其中,每个目标维度对应一个维度索引文件,第一维度索引文件中存储有文本集合中每个文本文件的目标维度的数据。进一步地,所述装置还包括:第一建立单元,用于在将所述目标维度的数据存储到对应的维度索引文件中之前,对每个维度分别建立一级索引;第二建立单元,用于通过MongoDB的索引机制对每个维度和对应维度下的每个属性建立二级索引。进一步地,所述装置还包括:保存单元,用于在按照预设规则解析出所述文本集合中的每个文本文件的目标维度的数据之后,将每个文本文件的目标维度的数据与所述文本文件的身份标识信息绑定保存,得到携带有文本文件的身份标识信息的目标维度数据,所述存储单元用于将携带有文本文件的身份标识信息的目标维度数据存储到对应的维度索引文件中。为了实现上述目的,根据本专利技术的另一方面,还提供了一种存储介质,包括存储的程序,其中,在所述程序运行时控制所述存储介质所在设备本专利技术所述的维度数据处理方法。为了实现上述目的,根据本专利技术的另一方面,还提供了一种处理器,用于运行程序,其中,所述程序运行时执行本专利技术所述的维度数据处理方法。本专利技术通过接收属性查询指令,其中,属性查询指令用于从维度索引文件中查询目标属性;响应于属性查询指令查询对应的维度索引文件,其中,每个维度对应一个维度索引文件,每个维度索引文件中存储该维度对应的属性数据;从维度索引文件中查找得到目标属性,解决了所有维度数据存储到一个索引中导致查询速度慢的问题,进而达到了提高维度数据查询效率的效果。附图说明构成本申请的一部分的附图用来提供对本专利技术的进一步理解,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是根据本专利技术实施例的维度数据处理方法的流程图;图2是根据本专利技术实施例的维度数据处理装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本专利技术。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。为了便于描述,以下对本申请实施例涉及的几个术语进行说明:Mongodb是一种基于文档存储的数据库,天然的可以将维度集结构中的每一个维本文档来自技高网
...

【技术保护点】
1.一种维度数据处理方法,其特征在于,包括:/n接收属性查询指令,其中,所述属性查询指令用于从维度索引文件中查询目标属性;/n响应于所述属性查询指令查询对应的维度索引文件,其中,每个维度对应一个维度索引文件,每个维度索引文件中存储该维度对应的属性数据;/n从所述维度索引文件中查找得到所述目标属性。/n

【技术特征摘要】
1.一种维度数据处理方法,其特征在于,包括:
接收属性查询指令,其中,所述属性查询指令用于从维度索引文件中查询目标属性;
响应于所述属性查询指令查询对应的维度索引文件,其中,每个维度对应一个维度索引文件,每个维度索引文件中存储该维度对应的属性数据;
从所述维度索引文件中查找得到所述目标属性。


2.根据权利要求1所述的方法,其特征在于,在响应于所述属性查询指令查询对应的维度索引文件之前,所述方法还包括:
获取待提取维度信息的文本集合;
按照预设规则解析出所述文本集合中的每个文本文件的目标维度的数据;
将所述目标维度的数据存储到对应的维度索引文件中,其中,每个目标维度对应一个维度索引文件,第一维度索引文件中存储有文本集合中每个文本文件的目标维度的数据。


3.根据权利要求2所述的方法,其特征在于,在将所述目标维度的数据存储到对应的维度索引文件中之前,所述方法还包括:
对每个维度分别建立一级索引;
通过MongoDB的索引机制对每个维度和对应维度下的每个属性建立二级索引。


4.根据权利要求2所述的方法,其特征在于,
在按照预设规则解析出所述文本集合中的每个文本文件的目标维度的数据之后,所述方法还包括:将每个文本文件的目标维度的数据与所述文本文件的身份标识信息绑定保存,得到携带有文本文件的身份标识信息的目标维度数据,
将所述目标维度的数据存储到对应的维度索引文件中包括:将携带有文本文件的身份标识信息的目标维度数据存储到对应的维度索引文件中。


5.一种维度数据处理装置,其特征在于,包括:
接收单元,用于接收属性查询指令,其中,所述属性查询指令用于从维度索引文件中查询目标属性;
查询单元,用于响应于所述属性查询指令查询对应的维度索引...

【专利技术属性】
技术研发人员:魏康
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1