一种基于时空聚类和多模型融合的群体行为分析和预测方法技术

技术编号:22168348 阅读:27 留言:0更新日期:2019-09-21 11:12
本发明专利技术是一种基于时空聚类和多模型融合的群体行为分析和预测方法,其特征在于:包括以下步骤,(1)检索第一RAM单元中的每条数据,利用基于待融合随机集合模型的傅里叶算法,对该条数据进行分词处理,将每条数据切成若干字节信息的集合;(2)检索每条数据的词汇集合,利用时间归一化算法,确定每条数据的时间属性;(3)检索每条数据的词汇集合,利用位置归一化算法,确定每条数据的位置属性;(4)检索每条数据的词汇集合,利用规则归并算法,确定每条数据的信用事件类型和等级;(5)根据(2)~(4)过程确定的属性信息,将每条数据规则化为

A Method of Group Behavior Analysis and Prediction Based on Spatio-temporal Clustering and Multi-model Fusion

【技术实现步骤摘要】
一种基于时空聚类和多模型融合的群体行为分析和预测方法
本专利技术属于大数据应用于信用事件管控领域,特别涉及一种基于时空聚类和多模型融合的群体行为分析和预测方法。
技术介绍
近年来,随着互联网和移动便携技术的发展,使越来越多的城市公民能随手分享身边的事情,这为普通大众参与到信用事件的管理提供了可能。事实上,根据相关研究学者的调查显示,正处于转型期的中国社会也迫切渴望普通群众能够参与到信用事件的管理,一方面,公众参与能体现出普通公民在城市日常事物管理中的参与、决策作用,发挥出公民的主体性,另一方面,城市公共信用管理需要公众的积极参与,以弥补当前信息、资源的不足。总而言之,公众参与既是城市公共信用管理的发展趋势,又是当前情势下的迫切需要。目前,公众参与到信用事件管理的方式主要是通过网络社交媒体发表身边的一些事件信息或者对某些事件的看法,收集这些数据并加以提取分析,可以获取大量事件相关信息,进而应用于信用事件的管理,提高事件处理效率,使事件管理走向智慧化。随着全国经济的高速发展以及全国城镇化的不断推进,越来越多的人口集中到城市中来。城市人口数据量的急剧增长为城市公共管理造成了一定的麻烦。目前,城市各类公共事件的管理主要有政府部门负责,包括有城管部门、警察机关、消防机关、医疗部门、防灾减灾中心、灾难应变指挥中心等,这些政府机构为城市公民的生活以及生命财产提供了一道有效的信用屏障。然而,由于城市每天发生公共事件数量庞大,政府相关部门人力物力资源缺少,再加之各部门之间协调存在一定困难,导致部分公共事件得不到有效的处理。然而,根据调查研究显示,目前公众在网络平台中产生的数据在公共信用监控与分析领域的相应的理论和方法较少,并鲜有应用。
技术实现思路
本专利技术的目的是针对当前信用事件处置过程中,存在数据获取不及时、信息源较少等问题,结合网络众源数据的特点,提出了一种基于时空聚类和多模型融合的群体行为分析和预测方法,并将其应用于信用事件管理中,旨在充分发挥网络众源数据的作用,提高公共信用事件处置效率。为实现上述目的,本专利技术的技术方案是:一种基于时空聚类和多模型融合的群体行为分析和预测方法,包括以下步骤:步骤1:获取与突发信用事件有关的政府采集数据,并将数据存入数据第一RAM单元中;步骤2:检索第一数据区中的每条数据,利用基于待融合随机集合模型的中文傅里叶算法,将每条数据切成若干字节信息的集合;再从中抽取数据的时空坐标信息、信用事件类型和信用等级属性,并将数据规则化为<时空坐标信息,信用事件类型,信用等级>四组融合模型;将规则化数据存入第二数据单元;步骤3:根据该突发信用事件的政策信息,提取该突发信用事件的发生时空坐标和信用事件类型以建立信用事件的时空聚类的融合信息,并以<时空坐标信息,信用事件类型>3元组作为时空聚类的融合信息;步骤4:检索第二RAM单元中的数据,分别计算每条数据到融合信息的时空坐标绝对位置和文本距离,将3种距离均小于给定阈值的数据,归入候选结果第三数据集合;然后根据第三数据集合中的信用等级属性,将数据分成若干簇,完成时空聚类;步骤5:根据融合结果的时空特征,将其叠加到系统地理位置云端上,展现事件在时空坐标系上的发展轨迹。进一步的,所述步骤1中获得与突发信用事件有关的政府采集数据,包括以下步骤:根据该突发的信用事件分类,利用政府普查信息大数据提供的API函数,输入事件关键词、时间范围和事件发生的地点,获取与该事件有关的政府采集数据。进一步的,所述步骤2所述的数据规则化包括以下步骤:(1)检索第一RAM单元中的每条数据,利用基于待融合随机集合模型的傅里叶算法,对该条数据进行分词处理,将每条数据切成若干字节信息的集合;(2)检索每条数据的词汇集合,利用时间归一化算法,确定每条数据的时间属性;(3)检索每条数据的词汇集合,利用位置归一化算法,确定每条数据的位置属性;(4)检索每条数据的词汇集合,利用规则归并算法,确定每条数据的信用事件类型和等级;(5)根据(2)~(4)过程确定的属性信息,将每条数据规则化为<时空坐标信息,信用事件类型,信用等级>四组融合模型,即使用该四组融合模型概化每条数据;(6)将规则化的数据条目存入第二数据单元。进一步的,所述步骤4包括以下处理步骤:(1)设定聚类的时空坐标绝对位置和文本距离3个距离阈值;(2)检索第二RAM单元的数据,剔除所有与融合信息信用事件类型不相同的数据;(3)检索清理后的第二RAM单元,计算该条数据与融合信息的时空坐标绝对位置和文本距离,当三种距离均小于给定的对应距离阈值时,该条数据归入事件第三数据集合;(4)检索第三数据集合,依据每条数据元组的信用等级,将第三数据集合划分成不同等级的数据簇,完成时空聚类。进一步的,所述步骤1中所述的公共信用事件是指突发的法人信用群、监控人物信息数据群、数据采集企事业单位信息群和经济环境信息群。进一步的,所述的API函数是指网络政府普查信息大数据发布的用于获取网络社交数据的应用开发接口函数,用于依据关键词、时间范围、地理范围获取实时的网络社交数据。进一步的,所述步骤2中所述的傅里叶算法是指基于待融合随机集合模型的傅里叶算法,利用待融合随机集合模型将句子、段落切分成若干字节信息的集合后并标注每个词汇的词性,以提取文本中的关键信息。进一步的,所述步骤3和4中所述的时空聚类融合信息是指数据聚类的基准信息,用于通过计算数据与融合信息的距离,确定是否归入融合结果集;所述的时间距离是指发表数据包含的时间与融合信息设定时间的时间差;所述的空间距离是指数据描述的空间位置与融合信息设定位置的空间平面距离;所述的文本距离是指文本的内容相似程度,通过主题模型计算得到0~1之间的相似度数值,数值越靠近1,表示文本越相似,文本距离越近,否则本距离越远。进一步的,所述步骤2中,所述的时间归一化算法是指根据文本切分词条的词性标注,提取出被标注为时间词性的词条;然后根据时间词条的词意,将文本时间转换为标准时间的格式;所述的位置归一化算法是指根据文本切分词条的词性标注,抽取出被标注为地名的词条;然后利用公知的地理编码服务将地名转换为经纬度的数据格式;所述的规则归并算法是指利用语法分析算法,分析文本数据的成分构成,并根据依存关系,提取核心谓语后面的数据作为事件描述内容;然后建立信用事件类型词典,根据词典匹配算法,判断事件描述中所属的类型;最后建立语气助词的字典和信用等级分类规则,根据词典匹配算法,判断数据中的信用事件类型和分级。本专利技术的有益效果是:本专利技术结合互联网社交平台发展和应用的特点,提出了从网络社交数据中抽取与信用事件有关信息的方法,具有以下几个优点:(1)利用网络社交数据,实现了面向信用事件的数据获取与分析方法,能使普通公民发布的信息用于信用事件的管理和处置,提高信用事件的处置效率。(2)利用文本处理方法,提取出数据中的时空坐标系和事件描述信息;进而,利用时间提取算法,确定数据包含的时空信息;然后,利用基于三重距离的时空聚类算法,实现了信息的融合,能有效提高信息获取和分类效率。(3)根据时空聚类结果的时空、空间和信用等级信息,将结果叠加到系统地理位置云端上,从空间、时间维度上展现事件的发展变化过程。采用本专利技术,能够实现信本文档来自技高网
...

【技术保护点】
1.一种基于时空聚类和多模型融合的群体行为分析和预测方法,其特征在于:包括以下步骤:步骤1:获取与突发信用事件有关的政府采集数据,并将数据存入第一数据区中;步骤2:检索第一数据区中的每条数据,利用基于待融合随机集合模型的傅里叶算法,将每条数据切成若干字节信息的集合;再从中抽取数据的时空坐标信息、信用事件类型和信用等级属性,并将数据规则化为时空坐标信息,信用事件类型,信用等级四组融合模型;将规则化数据存入第二数据单元;步骤3:根据该突发信用事件的政策信息,提取该突发信用事件的发生时空坐标和信用事件类型以建立信用事件的时空聚类的融合信息,并以<时空坐标信息,信用事件类型>3元组组融合模作为时空聚类的融合信息;步骤4:检索第二RAM单元中的数据,分别计算每条数据到融合信息的时空坐标绝对位置和文本距离,将3种距离均小于给定阈值的数据,归入候选结果第三数据集合;然后根据第三数据集合中的信用等级属性,将数据分成若干簇,完成时空聚类;步骤5:根据融合结果的时空特征,将其叠加到系统地理位置云端上,展现事件在时空坐标系上的发展轨迹。

【技术特征摘要】
2019.03.27 CN 20191023543381.一种基于时空聚类和多模型融合的群体行为分析和预测方法,其特征在于:包括以下步骤:步骤1:获取与突发信用事件有关的政府采集数据,并将数据存入第一数据区中;步骤2:检索第一数据区中的每条数据,利用基于待融合随机集合模型的傅里叶算法,将每条数据切成若干字节信息的集合;再从中抽取数据的时空坐标信息、信用事件类型和信用等级属性,并将数据规则化为时空坐标信息,信用事件类型,信用等级四组融合模型;将规则化数据存入第二数据单元;步骤3:根据该突发信用事件的政策信息,提取该突发信用事件的发生时空坐标和信用事件类型以建立信用事件的时空聚类的融合信息,并以<时空坐标信息,信用事件类型>3元组组融合模作为时空聚类的融合信息;步骤4:检索第二RAM单元中的数据,分别计算每条数据到融合信息的时空坐标绝对位置和文本距离,将3种距离均小于给定阈值的数据,归入候选结果第三数据集合;然后根据第三数据集合中的信用等级属性,将数据分成若干簇,完成时空聚类;步骤5:根据融合结果的时空特征,将其叠加到系统地理位置云端上,展现事件在时空坐标系上的发展轨迹。2.根据权利要求1所述的一种基于时空聚类和多模型融合的群体行为分析和预测方法,其特征在于:步骤1中获得与突发信用事件有关的政府采集数据,包括以下步骤:根据该突发的信用事件分类,利用政府普查信息大数据提供的API函数,输入事件关键词、时间范围和事件发生的地点,获取与该事件有关的政府采集数据。3.根据权利要求1所述的一种基于时空聚类和多模型融合的群体行为分析和预测方法,其特征在于:步骤2所述的数据规则化包括以下步骤:(1)检索第一RAM单元中的每条数据,利用基于待融合随机集合模型的傅里叶算法,对该条数据进行分词处理,将每条数据切成若干字节信息的集合;(2)检索每条数据的词汇集合,利用时间归一化算法,确定每条数据的时间属性;(3)检索每条数据的词汇集合,利用位置归一化算法,确定每条数据的位置属性;(4)检索每条数据的词汇集合,利用规则归并算法,确定每条数据的信用事件类型和等级;(5)根据(2)~(4)过程确定的属性信息,将每条数据规则化为<时空坐标信息,信用事件类型,信用等级>四组融合模型,即使用该四组融合模型概化每条数据;(6)将规则化的数据条目存入第二数据单元。4.根据权利要求1所述的一种基于时空聚类和多模型融合的群体行为分析和预测方法,其特征在于:所述的步骤4包括以下处理步骤:(1)设定聚类的时空坐标绝对位置和...

【专利技术属性】
技术研发人员:丁香乾王晓东许晓伟
申请(专利权)人:中国海洋大学
类型:发明
国别省市:山东,37

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1