一种用于失踪人群时空定位服务的数据分析方法技术

技术编号:22330117 阅读:39 留言:0更新日期:2019-10-19 12:16
本发明专利技术提供了一种用于失踪人群时空定位服务的数据分析方法,包括:通过已有失踪人口数据构建初始数据集;对初始数据集中的数据进行数据筛选和预处理,提取出用于进行分类的指标,得到样本数据集;对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;传入假设空间组中的各假设空间,构建各独立预测模型;根据各独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。利用这一模型,仅需提供失踪者性别、身高、出生日期、失踪日期和失踪位置描述,可获知失踪者可能到达的城市,能够为寻找失踪者提供帮助。

A data analysis method for the location service of missing people in time and space

【技术实现步骤摘要】
一种用于失踪人群时空定位服务的数据分析方法
本专利技术涉及数据分析
,具体涉及一种用于失踪人群时空定位服务的数据分析方法。
技术介绍
人工智能界认为机器学习是人工智能领域中最能体现智能的一个分支之一。它致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。机器学习所研究的主要内容是关于计算机上从数据中产生模型的算法。将经验数据提供给它,它就能通过这些数据产生模型。在面临新的情况发生时,模型就能够提供给相应的判断。随机森林是一类常见的机器学习方法,是一个包含了多颗多个决策树的分类器。它的优点有:对于不平衡的分类资料集来说,它可以平衡误差;对于很多种资料,它可以产生高准确度的分类器;在决定类别时,它能够评估变数的重要性等。现今,相关的理论和技术均以完善。在充足数据集的支持下,利用机器学习的随机森林方法能够较好解决各种分类问题。在中国,失踪人口的非法收养(包括失踪和被拐卖)是一直存在影响社会稳定和家庭稳定的关键公共安全问题。前人对失踪人口的非法收养问题研究较少,最新的成果是建立了失踪人口贩卖网络,对于非法收养的节点城市和关键路径进行了识别和定位。这一研究是从宏观尺度对人口非法收养网络进行的分析,有效说明了失踪人口的转移路径的整体情况,但没有对贩卖个例可能到达的位置进行有效的评估,为寻亲家庭提供直接的建议。
技术实现思路
本专利技术要解决的技术问题在于,针对上述目前缺少对失踪人口去向预测的相关方法的技术问题,提供一种用于失踪人群时空定位服务的数据分析方法解决上述技术缺陷。一种用于失踪人群时空定位服务的数据分析方法,包括:S1、根据已有失踪人口数据构建初始数据集;S2、对初始数据集中的数据进行数据筛选和预处理,提取得到用于进行分类的指标以构成样本数据集;S3、对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;S4、根据分别传入假设空间组中的各假设空间,来分别构建独立预测模型;S5、按照独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。进一步的,S1中所述失踪人口数据,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述;所述的初始数据集,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述字段;所述的构建过程,是将上述失踪人口数据中的对应内容添加到初始数据集的对应字段中。进一步的,S2中所述对初始数据集中的数据进行数据筛选和预处理过程,是将无效数据从数据集中剔除,无效数据包括缺失数据项的数据条目,以及数据内容不合法的数据条目;S2中提取得到的用于进行分类的指标包括失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对距离和转移相对方位。进一步的,S2中提取出用于进行分类的指标的方法包括:S21、将初始数据集中的失踪者性别、身高对应填入样本数据集中的性别、失踪时身高字段中;S22、结合出生日期和失踪日期提取出失踪者失踪时的年龄、失踪年份和失踪月份填入样本数据集中的相应字段中;S23、计算失踪位置和到达位置之间的相对距离和方位的关系,得到转移到达地相对于失踪地的距离和方位,填写入样本数据集中的相应字段中;S24、根据失踪位置描述和到达位置描述信息,得到失踪区块和到达区块,填写入样本数据集中的相应字段中。进一步的,S24中所述失踪区块与到达区块为对全国按照经纬网划分出的区块,划分的方式是:从数据集中描述的失踪位置描述和到达位置描述的经纬度中,找到最西南和最东北方向的两个点作为对角线,等分对全国划分区块并进行标号,然后按照全部数据中的失踪位置描述和到达位置描述,将其归纳入对应的区块之中。进一步的,S3中所述对样本数据集中的数据进行进一步细化分类过程,具体的,不同字段分类指标如下:对于失踪省份和到达省份,按照我国省级行政区名称进行对应的划分,每个省级行政区归为一类;对于失踪区块和到达区块,按照S24中的区块标号进行分类;对于失踪年份,每隔5年作为一种分类类型;对于失踪月份,按照3月到5月、6月到8月、9月到11月、12月到2月分为四类;失踪者性别按照男、女分为两类;失踪者身高和失踪者年龄数据按照自然间断点分割法将年龄分为20类,而身高分为6类;相对转移距离数据按照自然间断点分割法划分为20类;相对转移方位分为北、东北、东、东南、南、西南、西、西北,共8类。进一步的,所述转移相对方位分类中方位的确定,以失踪位置为原点,正北方向为0度,顺时针到到达方位的向量夹角进行参考,方位对应的角度值范围是:北:337.5-22.5;东北:22.5-67.5;东:67.5-112.5;东南:112.5-157.5;南:157.5-202.5;西南:202.5-247.5;西:247.5-292.5;西北:292.5-337.5。进一步的,S4中所述模型构建的假设空间组共包含四个假设空间,每个假设空间的属性分别为:a、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份;b、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达区块;c、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、转移相对距离;d、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对方位。进一步的,S4中所述分别传入假设空间组中的各假设空间,构建独立预测模型过程,共构建出了四个独立预测模型,分别为:a、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到到达省份;b、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到到达区块;c、通过失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高预测得到转移相对距离;d、失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块预测得到转移相对方位;所述的四个独立预测模型计算得到的结果为预测内容的发生概率值,使用者可以获知在每一个预测模型的预测下,失踪者可能到达的省份、区块、转移相对距离和转移相对方位的分类编号和对应的概率。进一步的,S5中所述基于统计方法创建综合预测模型的构建过程与方法包括:S51、在上述独立预测模型中,预测得到失踪者到达的距离范围和方位范围,结合传入的失踪位置,得到一个固定的扇形区域,利用初始数据集中的所有数据,计算出这一扇形区域覆盖的城市;S52、设S51中确定的扇形区域中覆盖了n个样本集中出现过的到达城市,分别标记为城市1,城市2,…,城市n,在样本集中,其在样本集出现的频数分别为则认定到达这一区域后,进入城市i的可能性为城市i的出现概率则有S53、类似地,根据到达省份和到达区块确定得到到达某一省份或区块后,进入某一城市的可能性,将到达某一省份后,进入某一城市i的可能性记为将到达某一区块后,进入某一城市i的可能性记为其计算方式同S52,得到进入某一直线距离区间和方位区间确定的区域后,或进入某一省份后,以及进入某一区块后,最终到达某个城市的可能性;S54、根据预测模型的直接独立预测结果,得到到达方位、到达距离范围、到达省本文档来自技高网...

【技术保护点】
1.一种用于失踪人群时空定位服务的数据分析方法,其特征在于,包括:S1、根据已有失踪人口数据构建初始数据集;S2、对初始数据集中的数据进行数据筛选和预处理,提取得到用于进行分类的指标以构成样本数据集;S3、对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;S4、根据分别传入假设空间组中的各假设空间,来分别构建独立预测模型;S5、按照独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。

【技术特征摘要】
1.一种用于失踪人群时空定位服务的数据分析方法,其特征在于,包括:S1、根据已有失踪人口数据构建初始数据集;S2、对初始数据集中的数据进行数据筛选和预处理,提取得到用于进行分类的指标以构成样本数据集;S3、对样本数据集中的数据进行进一步细化分类,并进行分类标号,得到用于模型构建的假设空间组;S4、根据分别传入假设空间组中的各假设空间,来分别构建独立预测模型;S5、按照独立预测模型的结果精度,基于统计方法创建综合预测模型,可给出失踪者可能到达的城市列表和对应城市的概率。2.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S1中所述失踪人口数据,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述;所述的初始数据集,包括失踪者性别、身高、出生日期、失踪日期、失踪位置描述和到达位置描述字段;所述的构建过程,是将上述失踪人口数据中的对应内容添加到初始数据集的对应字段中。3.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S2中所述对初始数据集中的数据进行数据筛选和预处理过程,是将无效数据从数据集中剔除,无效数据包括缺失数据项的数据条目,以及数据内容不合法的数据条目;S2中提取得到的用于进行分类的指标包括失踪省份、失踪区块、失踪时年龄、失踪年份、失踪月份、性别、失踪时身高、到达省份、到达区块、转移相对距离和转移相对方位。4.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S2中提取出用于进行分类的指标的方法包括:S21、将初始数据集中的失踪者性别、身高对应填入样本数据集中的性别、失踪时身高字段中;S22、结合出生日期和失踪日期提取出失踪者失踪时的年龄、失踪年份和失踪月份填入样本数据集中的相应字段中;S23、计算失踪位置和到达位置之间的相对距离和方位的关系,得到转移到达地相对于失踪地的距离和方位,填写入样本数据集中的相应字段中;S24、根据失踪位置描述和到达位置描述信息,得到失踪区块和到达区块,填写入样本数据集中的相应字段中。5.根据权利要求4所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S24中所述失踪区块与到达区块为对全国按照经纬网划分出的区块,划分的方式是:从数据集中描述的失踪位置描述和到达位置描述的经纬度中,找到最西南和最东北方向的两个点作为对角线,等分对全国划分区块并进行标号,然后按照全部数据中的失踪位置描述和到达位置描述,将其归纳入对应的区块之中。6.根据权利要求1所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,S3中所述对样本数据集中的数据进行进一步细化分类过程,具体的,不同字段分类指标如下:对于失踪省份和到达省份,按照我国省级行政区名称进行对应的划分,每个省级行政区归为一类;对于失踪区块和到达区块,按照S24中的区块标号进行分类;对于失踪年份,每隔5年作为一种分类类型;对于失踪月份,按照3月到5月、6月到8月、9月到11月、12月到2月分为四类;失踪者性别按照男、女分为两类;失踪者身高和失踪者年龄数据按照自然间断点分割法将年龄分为20类,而身高分为6类;相对转移距离数据按照自然间断点分割法划分为20类;相对转移方位分为北、东北、东、东南、南、西南、西、西北,共8类。7.根据权利要求6所述的一种用于失踪人群时空定位服务的数据分析方法,其特征在于,所述转移相对方位分类中方位的确定,以失踪位置为原点,正北方向为0度,顺时针到到达方位的向量夹角进行参考,方位对应的角度值范围是:北:337.5-22.5;东北:22.5-67.5;东:67.5-112.5;东南:112.5-157.5;南:157.5-202.5;西南:202.5-247.5;西:247.5-292.5;西北:292.5-337.5。8.根据权利要求1所述的一种用于失踪...

【专利技术属性】
技术研发人员:姚尧刘一飞
申请(专利权)人:中国地质大学武汉
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1