一种智能数据处理方法及系统技术方案

技术编号:28295643 阅读:17 留言:0更新日期:2021-04-30 16:19
本发明专利技术适用于计算机领域,提供了一种智能数据处理方法和系统,该系统可通过特征信息抽取单元将每宗案件的情报文本描述数据中的案情特征信息抽取出来,并通过案情关联度确定单元以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表,再通过案件归类单元对案件进行关联性归类,不仅可节省大量的人力物力,而且还可充分挖掘出各宗案件之间的潜在关联要素和关联关系,有利于提高案件处理效率。

【技术实现步骤摘要】
一种智能数据处理方法及系统
本专利技术属于计算机领域,尤其涉及一种智能数据处理方法和系统。
技术介绍
案件数据除了结构化的数据库数据外,还有海量的案件叙述性文本描述数据,包括案件卷宗、记录、简要案情等。这些文本描述数据中蕴含着各种重要的线索情报,因此对这些文本描述数据进行充分挖掘,可有效帮助提高案件的处理效率。目前,对于这些海量的文本描述数据基本上都是依赖于人工分析、筛选、整理和总结,需要耗费大量的人力物力,且耗时长、效率低。
技术实现思路
本专利技术实施例的目的在于提供一种智能数据方法和系统,旨在解决现有技术需要依赖人工对海量的情报文本描述数据进行人工分析、筛选、整理和总结,需要耗费大量的人力物力,且耗时长、效率低的问题。本专利技术实施例是这样实现的,一种智能数据处理系统,所述系统包括:数据采集单元,用于采集至少两宗案件的情报文本描述数据;特征信息抽取单元,用于抽取出每宗案件的情报文本描述数据中的案情特征信息;案情关联度确定单元,用于以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表;以及案件归类单元,用于根据所述案情关联度统计表,对案件进行关联性归类,并输出归类结果。本专利技术实施例的另一目的在于提供一种智能数据处理方法,包括如下步骤:采集至少两宗案件的情报文本描述数据;>抽取出每宗案件的情报文本描述数据中的案情特征信息;以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表;根据所述案情关联度统计表,对案件进行关联性归类,并输出归类结果。本专利技术实施例提供的智能数据处理系统,在通过数据采集单元采集至少两宗案件的情报文本描述数据后,经特征信息抽取单元抽取出每宗案件的情报文本描述数据中的案情特征信息,再通过案情关联度确定单元以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表,并通过案件归类单元根据所述案情关联度统计表,对案件进行关联性归类,并输出归类结果。本专利技术系统对于海量的情报文本描述数据的采集、分析、筛选、整理和总结过程均可由计算机智能执行,不仅能节省大量的人力物力,耗时短,效率高,且能够充分挖掘出各宗案件的潜在关联要素和关联关系,从而提高案件的处理质量和效率。附图说明图1为本专利技术实施例提供的一种智能数据处理系统的结构示意图;图2为本专利技术实施例提供的一种案情关联度确定单元的结构示意图;图3为本专利技术实施例一提供的一种智能数据处理方法的流程图;图4为本专利技术实施例二提供的一种智能数据处理方法的流程图;图5为本专利技术实施例三提供的一种智能数据处理方法的流程图;图6为本专利技术实施例四提供的一种智能数据处理方法的流程图;图7为本专利技术实施例五提供的一种智能数据处理方法的流程图。具体实施方式为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。可以理解,本申请所使用的术语“第一”、“第二”等可在本文中用于描述各种元件,但除非特别说明,这些元件不受这些术语限制。这些术语仅用于将第一个元件与另一个元件区分。举例来说,在不脱离本申请的范围的情况下,可以将第一xx脚本称为第二xx脚本,且类似地,可将第二xx脚本称为第一xx脚本。本专利技术实施例提供的智能数据处理系统,可通过特征信息抽取单元将每宗案件的情报文本描述数据中的案情特征信息抽取出来,并通过案情关联度确定单元以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表,再通过案件归类单元对案件进行关联性归类,不仅可节省大量的人力物力,而且还可充分挖掘出各宗案件之间的潜在关联要素和关联关系,有利于提高案件的处理效率。图1为本专利技术实施例提供的一种智能数据处理系统的结构示意图,为了便于说明,图中仅示出了与本实施例相关的部分,详述如下:本专利技术实施例提供的一种智能数据处理系统,包括数据采集单元10、特征信息抽取单元20、案情关联度确定单元30和案件归类单元40。数据采集单元10,用于采集至少两宗案件的情报文本描述数据。在本专利技术实施例中,情报文本描述数据,通常是指案件叙述性文本描述数据,包括案件卷宗、记录、简要案情等。这类文本描述数据通常蕴含着与案件直接或间接相关的许多重要的情报线索,而这些重要的情报线索往往是案件处理的关键所在。特征信息抽取单元20,用于抽取出每宗案件的情报文本描述数据中的案情特征信息。在本专利技术实施例中,案情特征信息,包括姓名、性别、相貌特征、衣着特点、工具(例如,刀、铁棍等)、场所、时间、车辆轨迹等。通常,一宗案件的情报文本描述数据会包括案件卷宗、记录、简要案情等一项或多项叙述性文本描述数据。特征信息抽取单元20可通过预设的抽取规则将每宗案件的所有叙述性文本描述数据中的案情特征信息抽取出来。其中,预设的抽取规则包括但不限于基于词典的方法或启发规则的方法等。下面以基于词典的方法抽取案件中的案情特征信息为例进行详细说明。现假设词典中共有5个词,特征信息抽取单元20可基于上述词典中的词语,从每宗案件的文本描述数据中抽取出与词典中的5个词语相同或相近或主题相关的内容,即得到每宗案件对应的案情特征信息。在本专利技术实施例中,特征信息抽取单元20可根据预设的抽取规则将每宗案件中的每项叙述性文本描述数据中的人名、地方名、组织名、时间等词语全部抽取出来。案情关联度确定单元30,用于以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表。在本专利技术实施例中,最关键的案情特征信息可以是用户选定的某宗案件的一个或两个案情特征信息。例如,某宗案件的案情特征信息包括人名、组织名、时间、场所、车辆轨迹等,用户可以选定该案件的人名、组织名、时间或场所中的一项或者两项作为该案件的最关键的案情特征信息。如用户选定某案件的人名和场所,那么该人名和场所即为该案件的最关键的案情特征信息。通过用户选定某宗案件的最关键的案情特征信息,并基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述本文档来自技高网...

【技术保护点】
1.一种智能数据处理系统,其特征在于,所述系统包括:/n数据采集单元,用于采集至少两宗案件的情报文本描述数据;/n特征信息抽取单元,用于抽取出每宗案件的情报文本描述数据中的案情特征信息;/n案情关联度确定单元,用于以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表;以及/n案件归类单元,用于根据所述案情关联度统计表,对案件进行关联性归类,并输出归类结果。/n

【技术特征摘要】
1.一种智能数据处理系统,其特征在于,所述系统包括:
数据采集单元,用于采集至少两宗案件的情报文本描述数据;
特征信息抽取单元,用于抽取出每宗案件的情报文本描述数据中的案情特征信息;
案情关联度确定单元,用于以用户选定的某宗案件的案情特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法和萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的关联度,并获得案情关联度统计表;以及
案件归类单元,用于根据所述案情关联度统计表,对案件进行关联性归类,并输出归类结果。


2.根据权利要求1所述的智能数据处理系统,其特征在于,所述特征信息抽取单元,具体用于:
对每宗案件的情报文本描述数据进行分词并清洗过滤,并统计每个分词的词频,并根据统计结果确定每件案件的情报文本描述数据中的案情特征信息。


3.根据权利要求1所述的智能数据处理系统,其特征在于,所述案情关联度确定单元,包括最关键的案情特征信息确定模块、第一案情关联度确定模块和第二案情关联度确定模块;
所述最关键的案情特征信息确定模块,用于根据用户的选定操作,确定最关键的案情特征信息;
所述第一案情关联度确定模块,用于以用户选定的某宗案件的案件特征信息作为该案件最关键的案情特征信息,基于逻辑回归分类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的第一关联度,获得第一案情关联度统计表;
所述第二案情关联度确定模块,用于基于萤火虫算法优化模糊C均值聚类算法,确定所述最关键的案情特征信息与其余案件的案情特征信息的第二关联度,获得第二案情关联度统计表;
所述案件归类单元,具体用于:
根据所述第一案情关联度统计表和第二案情关联度统计表,对案件进行关联性归类,并输出归类结果。


4.根据权利要求3所述的智能数据处理系统,其特征在于,所述案件归类单元,具体用于:
根据所述第一关联度统计表和第二关联度统计表的统计结果,分别计算其他每宗案件的案情特征信息与所述最关键的案情特征信息的关联度的平均值;
根据所述关联度平均值,对案件进行关联性归类,并输出归类结果。


5.根据权利要求3所述的智能数据处理系统,其特征在于,所述案件归类单元,还用于:
根据所述第一案情关联度统计表和第二案情关联度统计表的统计结果,对案件进行归类并对相关联的案情特征信息进行标注显示。


6.一种智能数据处理方法,其特征在于,包括如下步骤:...

【专利技术属性】
技术研发人员:李萌迪谭述安李承泽
申请(专利权)人:深圳提亚数字科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1