一种基于大数据的多维事件发展分析方法技术

技术编号:39258177 阅读:16 留言:0更新日期:2023-10-30 12:09
本发明专利技术公开了一种基于大数据的多维事件发展分析方法,包括以下步骤:采集矛盾事件数据;清洗数据,并实现矛盾事件的自动分类;根据反应的矛盾事件划分数据集;多维相关性分析筛选特征后,得到特征数据集;使用FP

【技术实现步骤摘要】
一种基于大数据的多维事件发展分析方法


[0001]本专利技术涉及自然语言处理研究领域,具体涉及一种基于大数据的多维事件发展分析方法。

技术介绍

[0002]随着社会和科学技术的发展,人与人之间的沟通更加便捷,信息交互越来越频繁,然而,这也使得社会各种各样的矛盾冲突更加凸显化,如果任由这些矛盾发展,可能最终会演变成更大的社会矛盾事件,对社会治理造成严重的影响。社会管理人员通过人工感知数据,只能得到一些主观的矛盾发展规律,且严重依赖人员的专业知识,需要不同背景知识的人进行总结,导致大量的人力物力资源的浪费,最后也无法精确地了解各领域矛盾事件的发展规律。

技术实现思路

[0003]为了克服现有技术的不足,本专利技术采集社会矛盾事件数据,并记录其矛盾等级;利用Bert模型对矛盾事件文本进行分类和情绪识别,实现了精准分类,减少了人工成本;再将特征进行多维组合构建新的特征数据集并利用FP

growth算法高效选择频繁项集;根据频繁项集计算各特征或特征组合之间的关联规则得到矛盾发展规律并可以根据矛盾发展规律防止新矛盾事件的恶化。本专利技术具体技术方案如下:
[0004]一种基于大数据的多维事件发展分析方法,包括以下步骤:
[0005]步骤1,采集各事件的文本内容、事件等级、事件主体,将每个事件进行编号。
[0006]优选的,采集的事件等级分为四类:A、B、C、D,A到D表示等级越来越低。
[0007]步骤2,对事件数据进行清洗;将所有的事件文本合并成为事件语料库,设置训练集、测试集,通过预训练的BERT

base

Chinese模型在该语料库的训练集上继续训练模型,利用测试集调整参数,选择在测试集上得分最高的模型,保存最佳模型参数,得到训练阶段的最佳语言模型;根据训练好的语言模型,对每个事件划分内容类别、情绪等级、事件性质。
[0008]优选的,事件语料库训练集、测试集按7:3的比例设置。
[0009]步骤3,根据步骤1、步骤2得到的数据,提取事件主体信息:包括姓名、年龄、性别、所属区域、事件办理满意度;其中年龄进行分箱操作;事件主体不是单个人的,按每个人来记录该事件,并添加事件的特征。
[0010]优选的,年龄分箱操作的规则为:年龄在25岁以下的,记为1;年龄在25到35岁的,记为2;年龄在35岁到45岁的,记为3;年龄在45岁到55岁的记为4,年龄在55岁到65岁的,记为5;年龄在65岁以上的,记为6。
[0011]步骤4,对于单个事件主体的单个事件,会有多次记录,将记录按时间排序,对于每个时间点的记录,构造如下特征:事件类别、该记录中事件主体的情绪等级、该事件记录的办理满意度、该记录之前的所有事件是否跨等级发展、此记录的事件主体为单体或群体;将这些特征多维组合后和事件等级做相关性分析后筛选最终特征,得到特征数据集。
[0012]具体方法为:使用卡方检验构造检验统计量,计算特征数据卡方统计量的值设置显著性水平p,得到满足的所述显著性水平p的卡方统计量值如果说明该特征或特征组合与矛盾等级相关;筛选出与矛盾等级相关性靠前的特征及特征组合。
[0013]优选的,选取的特征及特征组合数量为10。
[0014]步骤5,统计特征数据集中,各特征出现的次数,设置最小支持度阈值,使用FP

growth算法,选出支持度大于该最小支持度阈值的频繁项集。其中,特征{A,B}的支持度的定义为:
[0015]S(A,B)=N(A,B)/n,其中N(A,B)为特征A和特征B组合出现的次数,n为总次数。
[0016]具体流程为:
[0017]筛选出大于所述最小支持度阈值的特征,根据次数排序后得到新的频繁特征数据集;
[0018]根据新的频繁特征数据集构建FP树,读取数据集,插入FP树,插入时按照排序后的顺序,插入FP树中,排序靠前的节点是根节点,而靠后的是叶节点,如果有共用的根节点,则对应的公用根节点计数加1;
[0019]插入后,如果有新节点出现,则头指针表对应的节点会通过节点链表链接上新节点,直到所有的数据都插入到FP树后,FP树的建立完成;
[0020]根据FP树,从头指针表的底部项依次向上找到头指针表项对应的条件模式基,从条件模式基递归挖掘得到头指针表项的频繁项集,最后返回满足项数大于所述最小支持度阈值的频繁项集。
[0021]步骤6,将得到的频繁特征项组合为不同集合,分别计算各集合之间的提升度,设置最小提升度阈值,返回提升度大于最小提升度阈值的集合,得到关联规则;
[0022]其中,提升度的定义为:特征A到特征B的提升度=(特征A到特征B的置信度)/特征B的支持度,即T(A,B)=C(A,B)/S(B);
[0023]其中,置信度的定义为:特征A到特征B的置信度=(特征A、B的支持度)/特征A的支持度,即C(A,B)=S(A,B)/S(A)。
[0024]步骤7,根据步骤6的关联规则,得到多维事件发展规律,根据事件发展规律在事件发展初期进行控制,防止恶化。
[0025]与现有技术相比,本专利技术的有益效果为:利用自然语言处理技术,实现对矛盾事件文本的自动分类和情绪识别;通过矛盾特征的频繁项集和关联规则的挖掘,对特征进行多维组合,使得更高效地找到关联规则,帮助工作人员了解各领域社会矛盾发展的规律,提前预知某事件可能发生的矛盾,极大地提高了工作效率,节约了人力物力等社会资源。
附图说明
[0026]图1为本专利技术构建频繁项集使用的FP树示意图。
具体实施方式
[0027]为了阐明本专利技术的技术方案和工作原理,下面将对本公开实施方式做进一步的详细描述。上述所有可选技术方案,可以采用任意结合形成本公开的可选实施例,在此不再一一赘述。
[0028]本申请的说明书和权利要求书中的术语“步骤1”、“步骤2”、“步骤3”等类似描述是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里描述的那些以外的顺序实施。
[0029]本公开实施例提供了一种基于大数据的多维事件发展分析方法,具体包括以下步骤:
[0030]步骤1,采集矛盾事件数据。
[0031]对于矛盾事件,采集各事件的文本内容,事件等级,事件主体。其中事件等级分为四类:A、B、C、D,A到D表示等级越来越低,将每个事件进行编号。
[0032]步骤2,清洗数据,并实现矛盾事件的自动分类。
[0033]基于预先设置的清洗规则,对矛盾事件数据进行清洗;
[0034]将所有的事件文本合并成为事件语料库,按7:3的比例设置训练集、测试集。通过预训练的BERT

base

Chinese模型在该语料库的训练集上继续训练模型,利用测试集调整参数,选择在测试集上得分最高的模型,保存最佳模型参数本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的多维事件发展分析方法,其特征在于,包括以下步骤:步骤1,采集各事件的文本内容、事件等级、事件主体,将每个事件进行编号;步骤2,对事件数据进行清洗;将所有的事件文本合并成为事件语料库,设置训练集、测试集,通过预训练的BERT

base

Chinese模型在该语料库的训练集上继续训练模型,利用测试集调整参数,选择在测试集上得分最高的模型,保存最佳模型参数,得到训练阶段的最佳语言模型;根据训练好的语言模型,对每个事件划分内容类别、情绪等级、事件性质;步骤3,根据步骤1、步骤2得到的数据,提取事件主体信息:包括姓名、年龄、性别、所属区域、事件办理满意度;其中年龄进行分箱操作;事件主体不是单个人的,按每个人来记录该事件,并添加事件的特征;步骤4,对于单个事件主体的单个事件,会有多次记录,将记录按时间排序,对于每个时间点的记录,构造如下特征:事件类别、该记录中事件主体的情绪等级、该事件记录的办理满意度、该记录之前的所有事件是否跨等级发展、此记录的事件主体为单体或群体;将这些特征多维组合后和事件等级做相关性分析后筛选最终特征,得到特征数据集;步骤5,统计特征数据集中,各特征出现的次数,设置最小支持度阈值,使用FP

growth算法,选出支持度大于该最小支持度阈值的频繁项集。其中,特征{A,B}的支持度的定义为:S(A,B)=N(A,B)/n,其中N(A,B)为特征A和特征B组合出现的次数,n为总次数;步骤6,将得到的频繁特征项组合为不同集合,分别计算各集合之间的提升度,设置最小提升度阈值,返回提升度大于最小提升度阈值的集合,得到关联规则;其中,提升度的定义为:特征A到特征B的提升度=(特征A到特征B的置信度)/特征B的支持度,即T(A,B)=C(A,B)/S(B);其中,置信度的定义为:特征A到特征B的置信度=(特征A、B的支持度)/特征A的支持度,即C(A,B)=S(A,B)/S(A);步骤7,根据步骤6的关联规则,得到多维事件发展规...

【专利技术属性】
技术研发人员:沈昊周洁琴
申请(专利权)人:南京行者易智能交通科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1