一种挖掘人民调解中新型矛盾纠纷的系统及方法技术方案

技术编号:22000003 阅读:75 留言:0更新日期:2019-08-31 05:20
一种挖掘人民调解中新型矛盾纠纷的系统,包括:数据获取模块,从一个或多个系统中获取所有与人民调解相关的原始数据;数据清洗模块,对原始数据进行清洗操作获取有效数据;网络热词获取模块,获取新鲜词汇,避免切词过程中被过分切割或过滤;特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息获得表征人民调解案件的特征向量;新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量挖掘出隐藏在文档中新型矛盾纠纷;热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注。以及提供一种挖掘人民调解中新型矛盾纠纷的方法。本发明专利技术可行性强、失查率低、灵活性强。

A System and Method for Mining New Contradictions and Disputes in People's Mediation

【技术实现步骤摘要】
一种挖掘人民调解中新型矛盾纠纷的系统及方法
本专利技术属于数据挖掘及分析领域,涉及一种挖掘人民调解中新型矛盾纠纷的系统方法。
技术介绍
人民调解是我国司法体系的重要组成部分,是我国独特的矛盾纠纷解决方式,在司法不健全的时代发挥过巨大的历史作用,目前仍然作为基层矛盾纠纷多元化调解机制的组成部分,并发挥重大基础性作用。人民调解业务覆盖面广,涉及的矛盾纠纷类型多,是社会矛盾感知防控及维护社会稳定的重要数据来源。以上海市为例,共包含6600余个调解委员会,200余个司法所,从业调解员30000余人,年受理矛盾纠纷调处案件约30万件。人民调解的广泛覆盖,使其成为采集社会矛盾纠纷、感知社会风险态势的主要数据来源之一。然而,近年来频发的“滴滴打车”、“共享单车”等新型矛盾往往被旧的分类系统划分至“交通”大类,无法及时挖掘得到异常信息,使管理决策层无法做出有效的应对措施,导致该类矛盾集体爆发并引发恶劣的社会舆论,严重危害社会的和谐与稳定。综上所述,有效挖掘新矛盾纠纷类型,具有重大意义。挖掘人民调解中新型矛盾纠纷,帮助决策层及时做出应对措施,降低社会矛盾造成的社会不良影响。但目前大多数研究与专利技术着重于挖掘热点事件或者热点纠纷,如专利109325159A中提到的一种微博热点事件挖掘方法,仅通过计算文本之间的相似度来判断是否为同一类型事件,该方法不能判断表达同一中心内容的两条长度差距较大的文本是否为同一类型事件。在挖掘人民调解中新型事件或者新型矛盾方向,仅在专利205405609U中发现一种人民调解综合平台,而该平台只是方便录入数据。相关的学术研究也存在一些不足:(1)李华,朱荔.基于影响力的微博新兴热点事件检测[J].计算机应用与软件,2016,33(5).该论文中提出一种基于影响力的微博新兴热点事件检测方法,通过粉丝数量、转发次数、评论次数等微博特殊属性计算影响力,来挖掘微博中出现的新兴热点事件,但是一方面人民调解文本没有足够的特殊属性能够计算得到类似影响力的特征,另一方面文中使用增长率定义评定事件的新兴性,例如事件数量从1到2(增长率=1)即可判断为新兴事件,这是不合理的;(2)张雄宝,陆向艳,练凯迪,等.基于突发词地域分析的微博突发事件检测方法[J].情报杂志,2017,36(3):98-103.该论文从突发词的地域属性和情感属性两个维度去识别微博突发事件,但是人民调解文本情感属性偏向中性,地域属性也较为单一,无法有效地通过地域属性和情感属性识别新事件。
技术实现思路
为了克服现有人民调解中矛盾纠纷挖掘方式的可行性较差、失查率较高、灵活性较差的不足,本专利技术提出一种可行性强、失查率低、灵活性强的挖掘人民调解中新型矛盾纠纷的系统及方法。为了解决上技术问题本专利技术提供如下的技术方案。一种挖掘人民调解中新型矛盾纠纷的系统,包括以下模块:数据获取模块,从一个或多个系统中获取所有与人民调解相关的原始数据,其中,系统包括司法局、司法所、人民调解委员会等系统,相关原始数据包括案件内容、案件时间、案件类别和案件地点等数据。数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数据;其中,属性表示一个数据集合的某种特性,举例:案件内容、案件地点。网络热词获取模块,获取新鲜词汇,避免切词过程中被过分切割或过滤;特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息,获得表征人民调解案件的特征向量;特征向量是案件内容的数字化形式,案件内容中的每个词都是组成该案件特征向量的子向量;新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量,挖掘出隐藏在文档中新型矛盾纠纷。热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注,时序筛选机制具体筛选内容为:最近一个月突然增多的案件和从未出现但现今突增的案件。进一步,所述数据清洗模块的处理过程为:2.1数据去重:“对反映同一事实的数据进行去重”,识别从不同系统获取的数据是否存在内容完全相同的数据,进行去重;在本系统中具体实施如下:不同系统的案件可能存在重复的情况,将这2条数据去除重复保留其一,重复数据判断机制具体如下:两条数据的案件内容相似度大于设定的阈值,以日为精度日期相同,以区为精度地区相同,申请人相同,案件种类相同。2.2去除缺失数据:“某一条数据缺失为空时去除该条数据”,具体操作,当某一属性存在数据缺失时,由于本系统的特殊性,无法进行填充处理,所以去除该属性为空的那一条数据;2.3去除无用数据:“某一条数据不满足挖掘最低要求时去除该条数据”,具体操作,设置数据质量阈值,当数据质量低于阈值的时候删除该条数据。在本系统中具体实施如下:某一条数据的案件内容为“经审查为实情。”,由于数据质量明显不合格,故直接去除该条数据。2.4去除无用内容:“某一条数据的某一属性存在冗余的且会影响结果的内容时,去除该部分内容”,具体操作,找出案件内容中存在的固定格式,去除普遍存在的冗余内容,避免这些冗余的内容对后续的算法产生影响。在本系统中具体实施如下:大部分的案件内容存在类似“XX市XX区人民检察院指控,X年X月X日X时X分左右”的固定格式,通过正则匹配,去除该部分内容。2.5统一数据水平名称:“对含义相同格式不同的数据进行统一”,具体是指,过频数统计观察数据中存在的水平名称,然后通过字典将含义相同的字段进行替换。在本系统中具体实施如下:不同系统中对案件种类的命名不统一,不同地区对同一案件类型的称呼也有差异,通过标准化字典将案件种类统一编码。所述网络热词获取模块中,“添加网络热词至有用词字典”,具体是指,每日自动获取各网络数据源中的热点词汇。若获取的词已存在于有用词字典,则不再重复添加;若获取的词不存在于有用词字典,将其与已有词进行相似度比较,若相似度大于65%,则不再添加;若不满足上述两种情况,则将该热词添加至有用词词典。所述特征向量构建模块的处理过程为:3.2.1中文词语切割:“中文词语切割”,具体是指,将一长段的中文句段,分离切割成字、词和短语的形式,去除无用的词,如“而且”、“非常”等词,保留中文句段中能够反映其主要内容的主干部分。3.2.2特征向量计算:“特征向量计算”,具体是指,将案件集的案件内容切词后得到一个数据集,通过word2vec最算法进行向量化处理,终得到反映整个案件集的向量集,每一个案件的案件内容对应一个向量集中的向量,同时引入案件的地理信息,经过变换与计算后添加至每个案件对应向量。新型矛盾纠纷挖掘模块中,“挖掘新型矛盾纠纷”,具体是指,采用离群点检测模型将不同于主体内容的案件筛选剥离,经过多次迭代得到新型矛盾纠纷,最后通过人工判断,定义新型矛盾纠纷的名称。5.1离群点检测模型:“离群点检测模型”,具体是指,FindCBLOF算法计算每个向量基于假设簇的局部离群点因子,通过统计学方法定义向量和簇之间的相似性,即向量属于簇的概率。然后进行分簇,找出word2vec算法输出的向量集中的簇,并把它们按大小降序排列。与其他离群点检测算法不同的是,FindCBLOF假定大部分向量都不是离群向量,它使用一个参数来区别大簇和小簇以得到离群点。这里的离群点是指小簇,而不是指一般离群点检测算法所得到的离散离群向量。5.2迭代模块:将分离出来的离本文档来自技高网
...

【技术保护点】
1.一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述系统包括以下模块:数据获取模块,从一个或多个系统中获取所有与人民调解案件相关的原始数据;数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数据;网络热词获取模块,获取热点词汇,避免切词过程中被过分切割或过滤;特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息,获得表征人民调解案件的特征向量;特征向量是案件内容的数字化形式,案件内容中的每个词都是组成该案件特征向量的子向量;新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量,挖掘出隐藏在文档中新型矛盾纠纷;热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注。

【技术特征摘要】
1.一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述系统包括以下模块:数据获取模块,从一个或多个系统中获取所有与人民调解案件相关的原始数据;数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数据;网络热词获取模块,获取热点词汇,避免切词过程中被过分切割或过滤;特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息,获得表征人民调解案件的特征向量;特征向量是案件内容的数字化形式,案件内容中的每个词都是组成该案件特征向量的子向量;新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量,挖掘出隐藏在文档中新型矛盾纠纷;热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注。2.如权利要求1所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述数据清洗模块的处理过程为:2.1数据去重:识别从不同系统获取的数据是否存在内容完全相同的数据,进行去重;2.2去除缺失数据:当某一属性存在数据缺失时,无法进行填充处理,所以去除该属性为空的那一条数据;2.3去除无用数据:设置数据质量阈值,当数据质量低于阈值的时候删除该条数据;其中,数据质量计算公式如下式所示:M=(αF+βS+μD+ωK)×Len其中,M为数据质量,F为归一化处理后的申请人完整度,S为归一化处理后的案件描述完整度,D为归一化处理后的案件解决方案完整度,K为归一化处理后的案件时间地点完整度,Len为归一化处理后的案件长度,α,β,μ,ω为各项指标的系数,归一化方法选用最大最小法;2.4去除无用内容,找出案件内容中存在的固定格式,去除普遍存在的冗余内容,避免这些冗余的内容对后续的算法产生影响;2.5统一数据水平名称,通过频数统计观察数据中存在的水平名称,然后通过字典将含义相同的字段进行替换。3.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述网络热词获取模块中存储有用词字典,网络热词获取模块自动获取各网络数据源中的热点词汇,若获取的热点词汇已存在于有用词字典,则不再重复添加;若获取的热点词汇不存在于有用词字典,将其与有用词字典中已有词进行相似度比较,若相似度大于相似度阈值,则不再添加;若不满足上述两种情况,则将该热点词汇添加至有用词字典。4.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述特征向量构建模块的处理过程为:3.2.1中文词语切割:将一长段的中文句段,分离切割成字、词和短语的形式,去除无用的词,保留中文句段中能够反映其主要内容的主干部分;3.2.2特征向量计算:将案件集的案件内容切词后得到一个数据集,通过word2vec算法进行向量化处理,终得到反映整个案件集的向量集,每一个案件的案件内容对应一个向量集中的向量,同时引入案件的地理信息,经过变换与计算后添加至每个案件对应向量。5.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,新型矛盾纠纷挖掘模块中,“挖掘新型矛盾纠纷”,具体是指,采用离群点检测模型将不同于主体内容的案件筛选剥离,经过多次迭代得到新型矛盾纠纷,最后通过人工判断,定义新型矛盾纠纷的名称;过程如下:5.1离群点检测模型:FindCBLOF算法计算每个向量基于假设簇的局部离群点因子,通过统计学方法定义向量和簇之间的相似性,即向量属于簇的概率;然后进行分簇,找出word2vec算法输出的向量集中的簇,并把它们按大小降序排列;FindCBLOF假定大部分向量都不是离群向量,它使用一个参数来区别大簇和小簇以得到离群点;5.2迭代模块:将分离出来的离群向量有限次地输入离群点检测模型,每一次迭代都输出离群向量集对应的文本集,直至结果到达某一理想阈值。6.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述热门新型矛盾纠纷标注模块中,将时序因素考虑到新型矛盾纠纷挖掘中去,若最近一段时间突然增多同类型案件数量高于一定阈值且同比增率高于一定阈值,或从未出现但现今突增的新的同类型案件数量高于一定阈值,添加热门新型矛盾纠纷的标注。7.一种如权利要求1所述的挖掘人民调解中新型矛盾纠纷的系统实现的方法,其特征在于,所述方法包括以下步骤:1)提取数据库中人民调解的申请人、案件内容和申请日期以及一切能够和案件内容产生关联的影响因子;2)将获取的数据进行清洗得到有效数据;3)将有效数据进行去枝留干处理,引入案件地理信息,构建反映案件内容的特征向量,引入依据网络热词的新词挖掘机制;4)采用FindCBLOF离群点检测...

【专利技术属性】
技术研发人员:张江鑫金涌涛
申请(专利权)人:浙江工业大学银江股份有限公司
类型:发明
国别省市:浙江,33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1