【技术实现步骤摘要】
一种挖掘人民调解中新型矛盾纠纷的系统及方法
本专利技术属于数据挖掘及分析领域,涉及一种挖掘人民调解中新型矛盾纠纷的系统方法。
技术介绍
人民调解是我国司法体系的重要组成部分,是我国独特的矛盾纠纷解决方式,在司法不健全的时代发挥过巨大的历史作用,目前仍然作为基层矛盾纠纷多元化调解机制的组成部分,并发挥重大基础性作用。人民调解业务覆盖面广,涉及的矛盾纠纷类型多,是社会矛盾感知防控及维护社会稳定的重要数据来源。以上海市为例,共包含6600余个调解委员会,200余个司法所,从业调解员30000余人,年受理矛盾纠纷调处案件约30万件。人民调解的广泛覆盖,使其成为采集社会矛盾纠纷、感知社会风险态势的主要数据来源之一。然而,近年来频发的“滴滴打车”、“共享单车”等新型矛盾往往被旧的分类系统划分至“交通”大类,无法及时挖掘得到异常信息,使管理决策层无法做出有效的应对措施,导致该类矛盾集体爆发并引发恶劣的社会舆论,严重危害社会的和谐与稳定。综上所述,有效挖掘新矛盾纠纷类型,具有重大意义。挖掘人民调解中新型矛盾纠纷,帮助决策层及时做出应对措施,降低社会矛盾造成的社会不良影响。但目前大多数研究与专利技术着重于挖掘热点事件或者热点纠纷,如专利109325159A中提到的一种微博热点事件挖掘方法,仅通过计算文本之间的相似度来判断是否为同一类型事件,该方法不能判断表达同一中心内容的两条长度差距较大的文本是否为同一类型事件。在挖掘人民调解中新型事件或者新型矛盾方向,仅在专利205405609U中发现一种人民调解综合平台,而该平台只是方便录入数据。相关的学术研究也存在一些不足:(1)李华 ...
【技术保护点】
1.一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述系统包括以下模块:数据获取模块,从一个或多个系统中获取所有与人民调解案件相关的原始数据;数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数据;网络热词获取模块,获取热点词汇,避免切词过程中被过分切割或过滤;特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息,获得表征人民调解案件的特征向量;特征向量是案件内容的数字化形式,案件内容中的每个词都是组成该案件特征向量的子向量;新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量,挖掘出隐藏在文档中新型矛盾纠纷;热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注。
【技术特征摘要】
1.一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述系统包括以下模块:数据获取模块,从一个或多个系统中获取所有与人民调解案件相关的原始数据;数据清洗模块,对原始数据进行一种或多种清洗操作获取有效数据;网络热词获取模块,获取热点词汇,避免切词过程中被过分切割或过滤;特征向量构建模块,对有效数据进行提取、换算、变形,引入案件地理信息,获得表征人民调解案件的特征向量;特征向量是案件内容的数字化形式,案件内容中的每个词都是组成该案件特征向量的子向量;新型矛盾纠纷挖掘模块,根据文档集中各文档的特征向量,挖掘出隐藏在文档中新型矛盾纠纷;热门新型矛盾纠纷标注模块,引入时序因素,添加时序筛选机制,筛选出热门新型矛盾纠纷案件集,并自动添加对应标注。2.如权利要求1所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述数据清洗模块的处理过程为:2.1数据去重:识别从不同系统获取的数据是否存在内容完全相同的数据,进行去重;2.2去除缺失数据:当某一属性存在数据缺失时,无法进行填充处理,所以去除该属性为空的那一条数据;2.3去除无用数据:设置数据质量阈值,当数据质量低于阈值的时候删除该条数据;其中,数据质量计算公式如下式所示:M=(αF+βS+μD+ωK)×Len其中,M为数据质量,F为归一化处理后的申请人完整度,S为归一化处理后的案件描述完整度,D为归一化处理后的案件解决方案完整度,K为归一化处理后的案件时间地点完整度,Len为归一化处理后的案件长度,α,β,μ,ω为各项指标的系数,归一化方法选用最大最小法;2.4去除无用内容,找出案件内容中存在的固定格式,去除普遍存在的冗余内容,避免这些冗余的内容对后续的算法产生影响;2.5统一数据水平名称,通过频数统计观察数据中存在的水平名称,然后通过字典将含义相同的字段进行替换。3.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述网络热词获取模块中存储有用词字典,网络热词获取模块自动获取各网络数据源中的热点词汇,若获取的热点词汇已存在于有用词字典,则不再重复添加;若获取的热点词汇不存在于有用词字典,将其与有用词字典中已有词进行相似度比较,若相似度大于相似度阈值,则不再添加;若不满足上述两种情况,则将该热点词汇添加至有用词字典。4.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述特征向量构建模块的处理过程为:3.2.1中文词语切割:将一长段的中文句段,分离切割成字、词和短语的形式,去除无用的词,保留中文句段中能够反映其主要内容的主干部分;3.2.2特征向量计算:将案件集的案件内容切词后得到一个数据集,通过word2vec算法进行向量化处理,终得到反映整个案件集的向量集,每一个案件的案件内容对应一个向量集中的向量,同时引入案件的地理信息,经过变换与计算后添加至每个案件对应向量。5.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,新型矛盾纠纷挖掘模块中,“挖掘新型矛盾纠纷”,具体是指,采用离群点检测模型将不同于主体内容的案件筛选剥离,经过多次迭代得到新型矛盾纠纷,最后通过人工判断,定义新型矛盾纠纷的名称;过程如下:5.1离群点检测模型:FindCBLOF算法计算每个向量基于假设簇的局部离群点因子,通过统计学方法定义向量和簇之间的相似性,即向量属于簇的概率;然后进行分簇,找出word2vec算法输出的向量集中的簇,并把它们按大小降序排列;FindCBLOF假定大部分向量都不是离群向量,它使用一个参数来区别大簇和小簇以得到离群点;5.2迭代模块:将分离出来的离群向量有限次地输入离群点检测模型,每一次迭代都输出离群向量集对应的文本集,直至结果到达某一理想阈值。6.如权利要求1或2所述的一种挖掘人民调解中新型矛盾纠纷的系统,其特征在于,所述热门新型矛盾纠纷标注模块中,将时序因素考虑到新型矛盾纠纷挖掘中去,若最近一段时间突然增多同类型案件数量高于一定阈值且同比增率高于一定阈值,或从未出现但现今突增的新的同类型案件数量高于一定阈值,添加热门新型矛盾纠纷的标注。7.一种如权利要求1所述的挖掘人民调解中新型矛盾纠纷的系统实现的方法,其特征在于,所述方法包括以下步骤:1)提取数据库中人民调解的申请人、案件内容和申请日期以及一切能够和案件内容产生关联的影响因子;2)将获取的数据进行清洗得到有效数据;3)将有效数据进行去枝留干处理,引入案件地理信息,构建反映案件内容的特征向量,引入依据网络热词的新词挖掘机制;4)采用FindCBLOF离群点检测...
【专利技术属性】
技术研发人员:张江鑫,金涌涛,
申请(专利权)人:浙江工业大学,银江股份有限公司,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。