基于社交媒体数据的交通事件分类方法、系统及介质技术方案

技术编号：32582987 阅读：31 留言：0更新日期：2022-03-09 17:14

本发明专利技术公开了基于社交媒体数据的交通事件分类方法、系统及介质，通过从预设社交媒体平台上爬取交通事件数据并构建数据集；将预处理后的数据集进行文本编码并划分为训练集、验证集和测试集；将训练集和验证集输入至交通事件分类模型进行模型训练与效果评价得到最优超参数，其中交通事件分类模型中包括预训练模型；基于最优超参数对交通事件分类模型进行多组交叉验证后对测试集进行交通分类预测，通过投票算法在多组预测结果中确认最佳交通事件分类结果。本发明专利技术通过在社交媒体平台上自动采集海量的交通事件信息作为数据源，并对以预训练模型为基础建立的交通事件分类模型进行训练与效果验证，使得模型能实现高效且准确的交通事件智能分类。通事件智能分类。通事件智能分类。

全部详细技术资料下载

【技术实现步骤摘要】
基于社交媒体数据的交通事件分类方法、系统及介质

[0001]本专利技术涉及计算机
，尤其涉及基于社交媒体数据的交通事件分类方法、系统及介质。

技术介绍

[0002]随着信息化发展，社交媒体平台已经广泛应用于日常生活中，其信息传播速度之快、信息更新之及时、信息保留时间之长，使其成为了人工智能领域重要的数据来源。其中，社交媒体交通信息是指交通相关部门或个人用户在社交媒体平台上发表的与交通事件相关的内容，可通过对海量的社交媒体交通信息进行数据挖掘从而反馈交通情况方便居民出行规划。
[0003]目前交通事件的检测大多采用机器学习模型，或一般的深度学习模型。机器学习模型速度比较快、可解释性强，但是其准确率却相对较低；一般深度学习模型则过度依赖数据集，当训练集不足时，会发生过拟合，导致模型线上表现差，但是充足的训练集又需要耗费大量的人力，因此目前交通事件自动检测的方案还存在准确率和效率较低的问题。

技术实现思路

[0004]鉴于上述现有技术的不足，本专利技术的目的在于提供基于社交媒体数据的交通事件分类方法、系统及介质，旨在提高交通事件识别的准确率和效率。
[0005]本专利技术的技术方案如下：
[0006]一种基于社交媒体数据的交通事件分类方法，包括：
[0007]从预设社交媒体平台上爬取交通事件数据并构建数据集；
[0008]对所述数据集进行预处理；
[0009]将预处理后的数据集进行文本编码，并将文本编码后的数据集划分为训练集、验证集和测试集；
[...

【技术保护点】

【技术特征摘要】
1.一种基于社交媒体数据的交通事件分类方法，其特征在于，包括：从预设社交媒体平台上爬取交通事件数据并构建数据集；对所述数据集进行预处理；将预处理后的数据集进行文本编码，并将文本编码后的数据集划分为训练集、验证集和测试集；将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价，得到所述交通事件分类模型的最优超参数，其中所述交通事件分类模型中包括预训练模型；基于所述最优超参数对所述交通事件分类模型进行多组交叉验证后对所述测试集进行交通分类预测，并通过投票算法在多组预测结果中确认最佳交通事件分类结果。2.根据权利要求1所述的基于社交媒体数据的交通事件分类方法，其特征在于，所述从预设社交媒体平台上爬取交通事件数据并构建数据集，包括：获取所述交通事件数据的预设搜索条件；根据所述预设搜索条件从所述预设社交媒体平台中爬取相应的交通事件数据；在所述交通事件数据中筛选得到满足预设价值条件的有效数据，根据所述有效数据构建所述数据集。3.根据权利要求1所述的基于社交媒体数据的交通事件分类方法，其特征在于，所述对所述数据集进行预处理，包括：使用正则表达式去除所述数据集中的网页代码，提取得到文本数据；使用正则表达式去除所述文本数据的后缀；统计所述数据集中每条文本数据的长度，对长度小于预设下限值的文本数据进行文本增强；根据预设的交通事件类别对每条文本数据进行标注，得到预处理后的数据集。4.根据权利要求1所述的基于社交媒体数据的交通事件分类方法，其特征在于，所述将预处理后的数据集进行文本编码，并将文本编码后的数据集划分为训练集、验证集和测试集，包括：通过分词器对预处理后的数据集中的每条文本数据进行编码；根据预设调整规则将编码后的每条文本数据的长度均调整至预设长度，得到文本编码后的数据集；将文本编码后的数据集随机打乱，并调用预设分割函数将文本编码后的数据集按预设比例划分为训练集、验证集和测试集。5.根据权利要求1所述的基于社交媒体数据的交通事件分类方法，其特征在于，所述将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价，得到所述交通事件分类模型的最优超参数，其中所述交通事件分类模型中包括预训练模型之前，所述方法还包括：构建所述交通事件分类模型、用于训练所述交通事件分类模型的损失函数、用于控制参数更新的学习率策略以及用于评价模型效果的...

【专利技术属性】
技术研发人员：管中港，林宏涛，吕毅彬，夏雨，徐建闽，
申请(专利权)人：广州运星科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人