【技术实现步骤摘要】
一种涉法人员群体画像分析系统及方法
本专利技术涉及机器学习与自然语言处理
,尤其涉及一种涉法人员群体画像分析系统及方法。
技术介绍
近年来,国家大力推进行政执法综合管理监督信息系统建设,完善全国行政执法数据汇集和信息共享机制,全面提升全国行政执法与监督信息化水平,随着司法信息化的逐步完善,收集了大量的涉法案件信息,如裁判文书、监狱服刑记录、社区矫正、戒毒信息等数据。如何合理有效的利用数据辅助监管涉法人员,预防涉法人员逃脱、暴力、自杀等突发事件发生,根据涉法人员特征进行针对性教育改造,如何充分发挥数据效能是司法信息化建设的重要组成部分,而人物画像是在大数据背景下根据目标人物属性、行为等信息分析抽象出来的标签化的用户模型,用一些高度概括、容易理解的标签来描涉法群体,可以为后续辅助监管、教育改造等提供有力支持。目前,画像技术在电商、金融、通信等领域已经得到的很好的应用,为用户提供了良好的有针对性的服务。在司法领域人物画像技术应用还不多,专利CN109543986A是基于用户画像的监狱罪犯三预风险评估,通过分析样本数据 ...
【技术保护点】
1.一种涉法人员群体画像分析方法,其特征在于,包括如下步骤:/n(1)采集涉法数据,并对涉法数据进行融合及预处理;/n(2)对融合及预处理后的涉法数据进行深度脱敏;/n(3)基于涉法数据分别进行文本特征处理与数值特征处理,并进行特征融合,得到涉法人员的特征;/n(4)对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;/n(5)基于聚类结果,结合涉法人员的特征进行群体画像构建;/n(6)对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。/n
【技术特征摘要】
1.一种涉法人员群体画像分析方法,其特征在于,包括如下步骤:
(1)采集涉法数据,并对涉法数据进行融合及预处理;
(2)对融合及预处理后的涉法数据进行深度脱敏;
(3)基于涉法数据分别进行文本特征处理与数值特征处理,并进行特征融合,得到涉法人员的特征;
(4)对涉法人员的特征作升维处理,将其转化为固定长度向量后作降维处理,并采用聚类算法进行涉法人员群体挖掘;
(5)基于聚类结果,结合涉法人员的特征进行群体画像构建;
(6)对构建得到的人物画像进行可视化处理,并支持根据界面展示对特征进行二次筛选。
2.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(1)具体为:通过多个业务系统收集涉法数据,将涉法人员基本信息赋予不同的权重,计算涉法人员相似程度,通过设置相似程度阈值、冗余信息处理、冲突信息处理来进行跨系统数据融合,并将单个业务系统中完全相同的记录去除,将空值率大于预设阈值的字段去除。
3.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述的深度脱敏方法步骤如下:
(2.1)统计涉法人员姓名信息,按照姓名中姓和名字的分布情况,重新生成涉法人员姓名;
(2.2)对涉法数据中涉及到的组织机构信息进行编码处理;
(2.3)将身份证件和联系方式转化为唯一标识代码形式;
(2.4)结合外部地图数据,对采集到的地址信息进行规范化处理,规范化为省市县的形式,不涉及更加详细信息;
(2.5)识别所述融合及预处理后的涉法数据中的实体数据,对所述实体数据执行步骤(2.1)-(2.4),完成数据脱敏。
4.根据权利要求3所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(3)具体为:将涉法数据归类为文本特征数据与数值特征数据,具体划分为人员固定属性、人员动态属性、文本描述、地址、组织以及涉法案件特征六种特征类别数据,对这六种特征类别分别进行数据处理,并进行特征融合得到涉法人员的特征;其中,六种特征类别数据及处理具体如下:
1)人员固定属性数据反映涉法人员的基本信息,对数据进行预处理;
2)人员动态属性数据是指随着时间变化而不断改变的特征,反映涉法人员思想、行为变化状态,计算各动态属性数据的均值、方差、以及变化趋势,其中类别类数据需转化为数值型数据;
3)文本描述数据反应涉法案件文本描述信息,先进行分词,并采用word2vec模型生成X维向量;
4)地址数据反映涉法案件的地址相关性,采用步骤(2.4)所述方法处理;
5)组织数据反映涉法案件的组织相关性,采用步骤(2.2)所述方法处理;
6)涉法案件特征是指司法机关对涉法人员涉法事件的相关裁定信息,并对此类信息进行预处理。
5.根据权利要求4所述的一种涉法人员群体画像分析方法,其特征在于:所述变化趋势通过如下公式计算:
x=[x1,x2,...,xm]
其中,m表示某个涉法人员动态数据记录条数;j是下标,无实际意义;x表示动态记录;1{}表示括号中记录为真则值为1,否则值为0;td(x)是特征x的变化趋势值,代表动态数据变好或者维持现状的趋势,在0-1之间。
6.根据权利要求1所述的一种涉法人员群体画像分析方法,其特征在于:所述步骤(4)具体如下:
(4.1)对涉法数据中的数值特征数据进行升维处理,转化为X维的向量形式,X可以根据实际特征类别以及特征数量决定;其中,空值特征也编码为X维向量;
(4.2)将特征向量乘以对应的权重横向拼接在一起,生成固定长度的涉法人员特征F,
F=[g1f1,g2f2,...,gNfN]
其中,N表示涉法人员的特征数量,f表示X维特征向量,g表示特征向量的权重,根据业务需求来设定,F表示涉法人员特征拼接向量,共有N*X维;N的选取根据实际业务系统的特征数据量决定;
(4.3)对得到的涉法人员特征F进行降维处理,采用PCA降维提取主要特征F′,其中降维后F的维度可根据实际采用的算法和模型的准确度需求来设定;
(4.4)采用自适应DBSCAN密度聚类算法对处理好的降维特征F′进行聚类分析,获得稳定的C个聚类类别。
...
【专利技术属性】
技术研发人员:王开红,陈涛,金佳佳,丁锴,李建元,
申请(专利权)人:银江股份有限公司,
类型:发明
国别省市:浙江;33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。