一种目标群体活动事件的演化路径及发展进程分析方法技术

技术编号:29135017 阅读:11 留言:0更新日期:2021-07-02 22:30
本发明专利技术提供了一种目标群体活动事件的演化路径及发展进程分析方法,包括:步骤1、抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档和时空特征集;进行分词,构建目标活动事件描述文本集对应的词频矩阵;步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;步骤4、对活动事件的演化路径和发展进程进行可视化展现,生成事件发展脉络图。

【技术实现步骤摘要】
一种目标群体活动事件的演化路径及发展进程分析方法
本专利技术涉及一种目标群体活动事件的演化路径及发展进程分析方法。
技术介绍
准确地概括、刻画目标群体活动事件、研究事件的动态演化情况及发展进程是实现事件尽早预警、处置的关键,在舆情分析、公安判案、军事推演、溯因推理、行为预测等领域有着广泛的应用。实际情况中,目标群体活动事件由于参与活动的主体量大、类型多样复杂、参与时机不确定等因素使得对事件整体的动态演化及发展进程分析仍存在以下问题:1)往往以单一目标或某一类目标的活动事件演化作为研究目标,缺乏对多个目标或多类目标活动事件之间可能存在的正向加强、负向阻碍、演化一致性与分离性等特征的考虑;2)仅从单一目标活动事件的时序特征出发,对其活动事件在离散时间维度上进行演化分析,分析维度单一且未考虑目标群体活动事件之间内在的相关协同、配合的情况;3)根据群体中单一目标两两之间活动事件在时间点上的共现特征构建共现矩阵,而实际情况当中事件的转折或分化等关键特征出现的频次往往并不是最高的,因此仅从共现的频次定量分析事件的演化特征较为片面,缺乏对目标之间的空间位置、信息通联、固有属性等定性关系的考虑。
技术实现思路
专利技术目的:本专利技术所要解决的技术问题是针对现有技术的不足,提供一种目标群体活动事件的演化路径及发展进程分析方法,该方法通过抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档-时空特征集;对文本集进行分词,构建文本集对应的词频矩阵;按照文档-时空特征集中的时间信息对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行多轮分割,对每轮生成的多个时间片根据文档子集相关的地理位置特征共现情况进行调整,生成时间片划分方案;分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;对目标群体活动事件的演化路径和发展进程进行可视化展现,生成事件发展脉络图。本专利技术公开了一种目标群体活动事件的演化路径及发展进程分析方法,包括如下步骤:步骤1、抽取目标活动事件描述文本集(目标活动事件描述文本集是指关于某一事件相关活动的一组短文本,如描述“美海军夏季巡航部署”事件的一组文章或报道)中的时间及地理位置特征信息,形成文档和时空特征集;对目标活动事件描述文本集进行分词,构建目标活动事件描述文本集对应的词频矩阵;步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;步骤4、对活动事件的演化路径进行可视化展现,生成事件发展脉络图。步骤1包括:将目标活动事件描述文本集记为集合D={d1,d2,...dn},其中n∈N*且n>1,N*表示自然数;dn表示集合D中第n个文本;对集合D中的每个文本di,进行时间及地理位置两类原子信息元素抽取计算(参考文献:周凡坤.面向领域的文本信息抽取方法研究[D].南京邮电大学.2014),记di中抽取的时间集合为Ti,获取T1,T2,...,Tn中的最大时间和最小时间,分别记为tmax和tmin;记di中抽取的地理位置集合为Pi,将最终生成的文本di的文档和时空特征集记为Di-TP,则Di-TP={Ti,Pi},其中i取值为1~n;遍历目标活动事件描述文本集,对每一个文档di进行中文分词,分词后过滤掉停用词,最终得到文本集D对应的词频矩阵Df。参考文献:石凤贵.基于jieba中文分词的中文文本预料预处理模块实现[J].计算机软件及计算机应用.2020。步骤2包括如下步骤:步骤2-1:依据文档和时空特征集Di-TP中的时间集Ti对目标活动事件描述文本集按时序进行排列,待分割时间轴总的开始时间为tmin,结束时间为tmax;步骤2-2:对排序后的目标活动事件描述文本集按照最小时间粒度的整数倍进行两轮以上分割,设定在分割过程中取分割的时间长度为L且L为最小时间粒度的整数倍,则初步划分的时间片有个,设定空间特征共现频率调整阈值为θ,对每一个时间片进行如下两步操作:第一步,根据相邻时间片之间文本集的空间特征共现频率对时间划分方案进行第一次调整,对于第i个时间片Si,分别计算Si与Si-1和Si+1两个时间片中文本集的空间特征共现频率(空间特征共现频率是统计时间片Si与相邻时间片Si-1的文本集合中出现相同地理位置信息的频率),分别记为fi-1和fi+1,如果fi-1>fi+1>θ,则Si与Si-1和Si+1之间的时间片划分方案由Si向前合并;如果θ<fi-1<fi+1,则Si与Si-1和Si+1之间的时间片划分方案由Si向后合并;第二步,根据当前时间片内文本集的空间特征共现频率对时间划分方案进行第二次调整,计算第i个时间片Si中文本之间的最大空间特征共现频率f′i;如果f′i≥θ,则对时间片Si以最大空间特征文本集为界线进行分割;如果f′i<θ,则不进行时间片划分方案调整;步骤3包括如下步骤:步骤3-1:以词频矩阵Df为输入,计算、提取各时间片的活动主题:取活动主题数目为K,其中K∈N*且K>1,计算各时间片中文本的活动主题分布,记计算所得时间片Si的活动主题分布概率向量为Tik表示时间片Si的第K个主题出现的概率,其中k=1,2,3,..K;参考文献:郭蓝天,李杨等.一种基于LDA主题模型的话题发现方法[J].西北工业大学学报.2016(4):698-702;步骤3-2:计算各时间片内活动主题间的相对熵,将任意两个时间片Si与Sj的活动主题分布分别记为X(t)和Y(t),与之间的相对熵记为D(X||Y),则:其中X(tn)表示时间片Si的第n个主题出现的概率;Y(tn)表示时间片Sj的第n个主题出现的概率;步骤3-3:分析目标活动事件演化的关键点:对于第i个时间片Si,如果S1至Si-1之间的时间片Sk是与Si相对熵最小的且该相对熵值大于预设阈值σ,则将Sk作为Si的前向活动阶段;若S1至Si-1中任意时间片Sk与Si的相对熵小于阈值σ,则判断时间片Si为产生新活动事件的阶段;将Si+1至Slen中与Si相对熵最大的时间片作为时间片Si的下一步活动演化阶段,其中Slen为划分的最后一个时间片;如果两个时间片Si与Sj的下一步活动演化阶段均为时间片Sk,则判定时间片Si与Sj的活动在第k个时间片发生了合并。步骤4包括:根据步骤2和步骤3的分析结果,构建可展示目标群体中各单目标参与整体活动事件的时机与先后顺序的鱼骨图;根据各时间片活动主题间的演化关系,构建目标群体活动事件的演化图。有益效果:本专利技术与现有技术相比具有以下的优点:1)活动事件的研究对象更加广泛,由以本文档来自技高网...

【技术保护点】
1.一种目标群体活动事件的演化路径及发展进程分析方法,其特征在于,包括如下步骤:/n步骤1、抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档和时空特征集;对目标活动事件描述文本集进行分词,构建目标活动事件描述文本集对应的词频矩阵;/n步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;/n步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;/n步骤4、对活动事件的演化路径进行可视化展现,生成事件发展脉络图。/n

【技术特征摘要】
1.一种目标群体活动事件的演化路径及发展进程分析方法,其特征在于,包括如下步骤:
步骤1、抽取目标活动事件描述文本集中的时间及地理位置特征信息,形成文档和时空特征集;对目标活动事件描述文本集进行分词,构建目标活动事件描述文本集对应的词频矩阵;
步骤2、对目标活动事件描述文本集按时序进行排列,对排序后的文本集按照最小时间粒度的整数倍进行分割,生成时间片划分方案;
步骤3、分别计算、提取按照时间片划分方案分割后的各时间片内文本子集所蕴含的活动主题,计算各时间片中活动主题间的相对熵,对目标群活动事件进行关键时间点分析,并据此形成活动事件的演化路径;
步骤4、对活动事件的演化路径进行可视化展现,生成事件发展脉络图。


2.根据权利要求1所述的方法,其特征在于,步骤1包括:
将目标活动事件描述文本集记为集合D={d1,d2,...dn},其中n∈N*且n>1,N*表示自然数;dn表示集合D中第n个文本;
对集合D中的每个文本di,进行时间及地理位置两类原子信息元素抽取计算,记di中抽取的时间集合为Ti,获取T1,T2,…,Tn中的最大时间和最小时间,分别记为tmax和tmin;记di中抽取的地理位置集合为Pi,将最终生成的文本di的文档和时空特征集记为Di-TP,则Di-TP={Ti,Pi},其中i取值为1~n;
遍历目标活动事件描述文本集,对每一个文档di进行中文分词,分词后过滤掉停用词,最终得到文本集D对应的词频矩阵Df。


3.根据权利要求2所述的方法,其特征在于,步骤2包括如下步骤:
步骤2-1:依据文档和时空特征集Di-TP中的时间集Ti对目标活动事件描述文本集按时序进行排列,待分割时间轴总的开始时间为tmin,结束时间为tmax;
步骤2-2:对排序后的目标活动事件描述文本集按照最小时间粒度的整数倍进行两轮以上分割,设定在分割过程中取分割的时间长度为L且L为最小时间粒度的整数倍,则初步划分的时间片有个,设定空间特征共现频率调整阈值为θ,对每一个时间片进行如下两步操作:
第一步,根据相邻时间片之间文本集的空间特征共现频率对时间划分方案进行第一次调整,对于第i个时间片Si,分别计算Si与Si-1和Si+1两个时...

【专利技术属性】
技术研发人员:郭婉李亚钊李彭伟戴大伟冯燕来陆君之欧阳慈
申请(专利权)人:中国电子科技集团公司第二十八研究所
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1