【技术实现步骤摘要】
基于客观信息论的智慧法院系统大数据处理方法及装置
[0001]本文属于数据处理
,具体涉及基于客观信息论的智慧法院系统大数据处理方法及装置。
技术介绍
[0002]当前,常用5V度量方法来对大数据质量进行评估,5V度量是指:容量(Volume)、速度(Velocity)、丰富度(Variety)、价值(Value)和真实性(Veracity)。然而,5V度量方法存在如下缺陷:(1)度量指标定义不清晰:由于大数据来源较广,不同行业、不同系统、不同人员对同一数据可能会有不同的理解,相同的大数据可能因此形成不同的评价结论,很难做到完全统一。(2)度量维度不够全面:智慧法院大数据涉及汇聚、质检、治理、应用等多个环节;由文本、图像、音频以及视频等多种形式的数据组成,数据呈现结构化、半结构化以及非结构化等多种格式,现有的5V度量方法已不能满足对智慧法院大数据全方位评价的需求。(3)度量指标实施难以落地:不同行业产生的大数据不同,在对各行业产生的大数据进行度量时具体的实施方式也应当有所差别。然而,现有5V度量体系并不是专门针对某个行 ...
【技术保护点】
【技术特征摘要】
1.一种基于客观信息论的智慧法院系统大数据处理方法,其特征在于,所述方法包括:从目标法院系统中获取在指定时间段内的数据文本集合,所述数据文本集合包括规则文本集合、实体文本集合和案件文本集合;根据所述数据文本集合,按照法院数据模型确定每个数据文本集合中的多个子数据文本集合;根据客观信息论的度量模型,从所述子数据文本集合中提取所述度量模型中每个测度项对应的度量数据,得到度量数据集合;确定不同子数据文本集合对应的不同的基于所述度量模型的测度项组合;根据所述测度项组合,从所述度量数据集合中进行聚类分析,得到针对每个子数据文本集合的度量数据组合;根据所述度量数据组合,计算获得所述目标法院系统中每个子数据文本集合的信息值,所述信息值用于表示所述子数据文本集合的价值;根据所述目标法院系统中每个子数据文本集合的信息值,结合法院数据模型中数据文本集合和子数据文本集合,计算获得所述目标法院系统的数据评分结果;当所述数据评分结果不满足预设要求时,则向所述目标法院系统输出调整指令,以优化所述目标法院系统中的数据。2.根据权利要求1所述的方法,其特征在于,所述从目标法院系统中获取在指定时间段内的数据文本集合,包括:确定待提取数据文本集合的数据类型;根据所述待提取数据文本集合的数据类型,确定所述待提取数据文本集合的存储位置;根据所述待提取数据文本集合的存储位置,提取指定时间段内的数据文本,形成所述数据文本集合。3.根据权利要求2所述的方法,其特征在于,信息论的度量模型包括广阔度、细致度、持续度、丰富度、容积度、延迟度、遍及度、真实度和适配度;所述根据客观信息论的度量模型,从所述子数据文本集合中提取所述度量模型中每个测度项对应的度量数据,得到度量数据集合,包括:根据所述客观信息论的度量模型,确定每个所述测度项的度量计算公式;根据所述度量计算公式,确定每个测度项所需的度量数据;从所述子数据文本集合中提取每个测度项对应的度量数据,得到度量数据集合。4.根据权利要求3所述的方法,其特征在于,所述从所述子数据文本集合中提取每个测度项对应的度量数据,得到度量数据集合,包括:针对每个子数据文本集合:获取所述子数据文本集合中的子数据文本;依次从所述子数据文本中提取每个测度项对应的度量数据,得到初始度量数据集合;计算每个测度项对应的度量数据的标准差;根据每个测度项对应的度量数据的标准差,从所述初始度量数据集合中筛选出满足预设条件的度量数据,以获得度量数据集合。5.根据权利要求4所述的方法,其特征在于,所述预设条件为:
,其中,为第i个测度项对应的度量数据的平均值,第i个测度项对应的度量数据的标准差,为第i个测度项对应的第j个度量数据。6.根据权利要求1所述的方法,其特征在于,所述确定不同子数据文本集合对应的不同的基于所述度量模型的测度项组合,包括:获取所述子数据文本集合的文本内容的属性;确定所述信息论的度量模型中每个测度项的度量属性;根据所述文本内容的属性和所述度量属性,计算获得所述子数据文本集合和每个测度项的属性关联度;将属性关联度超过预设值的测度项确定为所述子数据文本集合对应的测度项,以获得所述子数据文本集合对应的测度项组合。7.根据权利要求1所述的方法,其特征在于,所述根据所述度量数据组合,计算获得所述目标法院系统中每个子数据文本集合的信息值,包括:确定每个测度项的度量计算公式;根据每个测度项的度量计算公式和每个子数据文本集合对应的测度项组合,确定每个所述子数据文本集合信息值的计算函数;根据所述度量数据组合和所述子数据文本集合信息值的计算函数,计算获得每个子数据文本集合的信息值。8.根据权利要求3所述的方法,其特征在于,所述广阔度的度量计算公式可以为:,其中:设O为子数据文本,C为常数,即全国法院系统总数,为子数据文本覆盖的第i个法院系统, 为子数据文本覆盖的第i个法院系统的价值权重系数;n为子数据文本覆盖法院系统总数;所述细致度的度量计算公式可以为:,其中,G为细致度,O为子数据文本, C为常数,数据类型总数,为子数据文本中涉及第i(1≤i≤n)个数据类型, 为子数据文本中涉及第i个数据类型的价值权重系数,n为子数据文本中涉及数据类型的总数;所述持续度的度量计算公式可以为:,其中,设T为时间t的集合,为时间跨度,O为子数据文本,n为子数据文本中的不同格式数据的总数,为第i个格式数据在时间集合T内是否保持持续变化,若是持续变化,则;否则;...
【专利技术属性】
技术研发人员:许建峰,孙福辉,陈奇伟,李晓慧,刘振宇,陈宝贵,余超,王晓燕,张雅雯,
申请(专利权)人:人民法院信息技术服务中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。