一种基于大数据的多维事件发展分析方法技术

技术编号：39258177 阅读：16 留言：0更新日期：2023-10-30 12:09

本发明专利技术公开了一种基于大数据的多维事件发展分析方法，包括以下步骤：采集矛盾事件数据；清洗数据，并实现矛盾事件的自动分类；根据反应的矛盾事件划分数据集；多维相关性分析筛选特征后，得到特征数据集；使用FP

全部详细技术资料下载

【技术实现步骤摘要】
一种基于大数据的多维事件发展分析方法

[0001]本专利技术涉及自然语言处理研究领域，具体涉及一种基于大数据的多维事件发展分析方法。

技术介绍

[0002]随着社会和科学技术的发展，人与人之间的沟通更加便捷，信息交互越来越频繁，然而，这也使得社会各种各样的矛盾冲突更加凸显化，如果任由这些矛盾发展，可能最终会演变成更大的社会矛盾事件，对社会治理造成严重的影响。社会管理人员通过人工感知数据，只能得到一些主观的矛盾发展规律，且严重依赖人员的专业知识，需要不同背景知识的人进行总结，导致大量的人力物力资源的浪费，最后也无法精确地了解各领域矛盾事件的发展规律。

技术实现思路

[0003]为了克服现有技术的不足，本专利技术采集社会矛盾事件数据，并记录其矛盾等级；利用Bert模型对矛盾事件文本进行分类和情绪识别，实现了精准分类，减少了人工成本；再将特征进行多维组合构建新的特征数据集并利用FP
‑
growth算法高效选择频繁项集；根据频繁项集计算各特征或特征组合之间的关联规则得到矛盾发展规律并可以根据矛盾发展规律防止新矛盾事件的恶化。本专利技术具体技术方案如下：
[0004]一种基于大数据的多维事件发展分析方法，包括以下步骤：
[0005]步骤1，采集各事件的文本内容、事件等级、事件主体，将每个事件进行编号。
[0006]优选的，采集的事件等级分为四类：A、B、C、D，A到D表示等级越来越低。
[0007]步骤2，对事件数据进行清洗；将所有的事件文本合并成为事件语料库，...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的多维事件发展分析方法，其特征在于，包括以下步骤：步骤1，采集各事件的文本内容、事件等级、事件主体，将每个事件进行编号；步骤2，对事件数据进行清洗；将所有的事件文本合并成为事件语料库，设置训练集、测试集，通过预训练的BERT
‑
base
‑
Chinese模型在该语料库的训练集上继续训练模型，利用测试集调整参数，选择在测试集上得分最高的模型，保存最佳模型参数，得到训练阶段的最佳语言模型；根据训练好的语言模型，对每个事件划分内容类别、情绪等级、事件性质；步骤3，根据步骤1、步骤2得到的数据，提取事件主体信息：包括姓名、年龄、性别、所属区域、事件办理满意度；其中年龄进行分箱操作；事件主体不是单个人的，按每个人来记录该事件，并添加事件的特征；步骤4，对于单个事件主体的单个事件，会有多次记录，将记录按时间排序，对于每个时间点的记录，构造如下特征：事件类别、该记录中事件主体的情绪等级、该事件记录的办理满意度、该记录之前的所有事件是否跨等级发展、此记录的事件主体为单体或群体；将这些特征多维组合后和事件等级做相关性分析后筛选最终特征，得到特征数据集；步骤5，统计特征数据集中，各特征出现的次数，设置最小支持度阈值，使用FP
‑
growth算法，选出支持度大于该最小支持度阈值的频繁项集。其中，特征{A,B}的支持度的定义为：S(A,B)＝N(A,B)/n，其中N(A,B)为特征A和特征B组合出现的次数，n为总次数；步骤6，将得到的频繁特征项组合为不同集合，分别计算各集合之间的提升度，设置最小提升度阈值，返回提升度大于最小提升度阈值的集合，得到关联规则；其中，提升度的定义为：特征A到特征B的提升度＝(特征A到特征B的置信度)/特征B的支持度，即T(A,B)＝C(A,B)/S(B)；其中，置信度的定义为：特征A到特征B的置信度＝(特征A、B的支持度)/特征A的支持度，即C(A,B)＝S(A,B)/S(A)；步骤7，根据步骤6的关联规则，得到多维事件发展规...

【专利技术属性】
技术研发人员：沈昊，周洁琴，
申请(专利权)人：南京行者易智能交通科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人