基于社交媒体数据的交通事件分类方法、系统及介质技术方案

技术编号:32582987 阅读:31 留言:0更新日期:2022-03-09 17:14
本发明专利技术公开了基于社交媒体数据的交通事件分类方法、系统及介质,通过从预设社交媒体平台上爬取交通事件数据并构建数据集;将预处理后的数据集进行文本编码并划分为训练集、验证集和测试集;将训练集和验证集输入至交通事件分类模型进行模型训练与效果评价得到最优超参数,其中交通事件分类模型中包括预训练模型;基于最优超参数对交通事件分类模型进行多组交叉验证后对测试集进行交通分类预测,通过投票算法在多组预测结果中确认最佳交通事件分类结果。本发明专利技术通过在社交媒体平台上自动采集海量的交通事件信息作为数据源,并对以预训练模型为基础建立的交通事件分类模型进行训练与效果验证,使得模型能实现高效且准确的交通事件智能分类。通事件智能分类。通事件智能分类。

【技术实现步骤摘要】
基于社交媒体数据的交通事件分类方法、系统及介质


[0001]本专利技术涉及计算机
,尤其涉及基于社交媒体数据的交通事件分类方法、系统及介质。

技术介绍

[0002]随着信息化发展,社交媒体平台已经广泛应用于日常生活中,其信息传播速度之快、信息更新之及时、信息保留时间之长,使其成为了人工智能领域重要的数据来源。其中,社交媒体交通信息是指交通相关部门或个人用户在社交媒体平台上发表的与交通事件相关的内容,可通过对海量的社交媒体交通信息进行数据挖掘从而反馈交通情况方便居民出行规划。
[0003]目前交通事件的检测大多采用机器学习模型,或一般的深度学习模型。机器学习模型速度比较快、可解释性强,但是其准确率却相对较低;一般深度学习模型则过度依赖数据集,当训练集不足时,会发生过拟合,导致模型线上表现差,但是充足的训练集又需要耗费大量的人力,因此目前交通事件自动检测的方案还存在准确率和效率较低的问题。

技术实现思路

[0004]鉴于上述现有技术的不足,本专利技术的目的在于提供基于社交媒体数据的交通事件分类方法、系统及介质,旨在提高交通事件识别的准确率和效率。
[0005]本专利技术的技术方案如下:
[0006]一种基于社交媒体数据的交通事件分类方法,包括:
[0007]从预设社交媒体平台上爬取交通事件数据并构建数据集;
[0008]对所述数据集进行预处理;
[0009]将预处理后的数据集进行文本编码,并将文本编码后的数据集划分为训练集、验证集和测试集;
[0010]将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价,得到所述交通事件分类模型的最优超参数,其中所述交通事件分类模型中包括预训练模型;
[0011]基于所述最优超参数对所述交通事件分类模型进行多组交叉验证后对所述测试集进行交通分类预测,并通过投票算法在多组预测结果中确认最佳交通事件分类结果。
[0012]在一个实施例中,所述从预设社交媒体平台上爬取交通事件数据并构建数据集,包括:
[0013]获取所述交通事件数据的预设搜索条件;
[0014]根据所述预设搜索条件从所述预设社交媒体平台中爬取相应的交通事件数据;
[0015]在所述交通事件数据中筛选得到满足预设价值条件的有效数据,根据所述有效数据构建所述数据集。
[0016]在一个实施例中,所述对所述数据集进行预处理,包括:
[0017]使用正则表达式去除所述数据集中的网页代码,提取得到文本数据;
[0018]使用正则表达式去除所述文本数据的后缀;
[0019]统计所述数据集中每条文本数据的长度,对长度小于预设下限值的文本数据进行文本增强;
[0020]根据预设的交通事件类别对每条文本数据进行标注,得到预处理后的数据集。
[0021]在一个实施例中,所述将预处理后的数据集进行文本编码,并将文本编码后的数据集划分为训练集、验证集和测试集,包括:
[0022]通过分词器对预处理后的数据集中的每条文本数据进行编码;
[0023]根据预设调整规则将编码后的每条文本数据的长度均调整至预设长度,得到文本编码后的数据集;
[0024]将文本编码后的数据集随机打乱,并调用预设分割函数将文本编码后的数据集按预设比例划分为训练集、验证集和测试集。
[0025]在一个实施例中,所述将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价,得到所述交通事件分类模型的最优超参数,其中所述交通事件分类模型中包括预训练模型之前,所述方法还包括:
[0026]构建所述交通事件分类模型、用于训练所述交通事件分类模型的损失函数、用于控制参数更新的学习率策略以及用于评价模型效果的评价指标,其中,所述交通事件分类模型包括预训练模型和下游分类模型。
[0027]在一个实施例中,所述将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价,得到所述交通事件分类模型的最优超参数,包括:
[0028]将所述训练集和验证集输入至所述交通事件分类模型中进行周期性的训练与效果验证,得到相应的损失函数值与评价指标值;
[0029]根据每个周期的所述损失函数值与评价指标值控制所述预训练模型以第一学习率进行参数更新,并控制所述下游分类模以第二学习率进行参数更新,所述第一学习率小于所述第二学习率;
[0030]当验证所述交通事件分类模型的效果达到最优时得到对应的最优超参数。
[0031]在一个实施例中,所述基于所述最优超参数对所述交通事件分类模型进行多组交叉验证后对所述测试集进行交通分类预测,并通过投票算法在多组预测结果中确认最佳交通事件分类结果,包括:
[0032]获取交叉验证的折数,并根据所述折数将所述数据集随机划分N次,得到N组训练子集、N组验证子集和N组测试子集;
[0033]保持所述最优超参数不变,通过所述N组训练子集和N组验证子集对所述交通事件分类模型进行交叉验证训练后得到N个分类子模型;
[0034]通过N个分类子模型分别对所述测试集进行交通事件分类预测,得到N组预测结果;
[0035]根据投票算法在所述N组预测结果中确认最佳交通事件分类结果。
[0036]在一个实施例中,所述预训练模型为bert模型或roberta模型。
[0037]一种基于社交媒体数据的交通事件分类系统,所述系统包括至少一个处理器;以及,
[0038]与所述至少一个处理器通信连接的存储器;其中,
[0039]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行上述基于社交媒体数据的交通事件分类方法。
[0040]一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质存储有计算机可执行指令,该计算机可执行指令被一个或多个处理器执行时,可使得所述一个或多个处理器执行上述的基于社交媒体数据的交通事件分类方法。
[0041]有益效果:本专利技术公开了基于社交媒体数据的交通事件分类方法、系统及介质,相比于现有技术,本专利技术实施例通过在社交媒体平台上自动采集海量的交通事件信息作为数据源,并对以预训练模型为基础建立的交通事件分类模型进行训练与效果验证,使得模型能实现高效且准确的交通事件智能分类。
附图说明
[0042]下面将结合附图及实施例对本专利技术作进一步说明,附图中:
[0043]图1为本专利技术实施例提供的基于社交媒体数据的交通事件分类方法的一个流程图;
[0044]图2为本专利技术实施例提供的基于社交媒体数据的交通事件分类方法中交通事件分类模型的框架示意图;
[0045]图3为本专利技术实施例提供的基于社交媒体数据的交通事件分类方法中的模型效果对比图;
[0046]图4为本专利技术实施例提供的基于社交媒体数据的交通事件分类系统的硬件结构示意图。
具体实施方式
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于社交媒体数据的交通事件分类方法,其特征在于,包括:从预设社交媒体平台上爬取交通事件数据并构建数据集;对所述数据集进行预处理;将预处理后的数据集进行文本编码,并将文本编码后的数据集划分为训练集、验证集和测试集;将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价,得到所述交通事件分类模型的最优超参数,其中所述交通事件分类模型中包括预训练模型;基于所述最优超参数对所述交通事件分类模型进行多组交叉验证后对所述测试集进行交通分类预测,并通过投票算法在多组预测结果中确认最佳交通事件分类结果。2.根据权利要求1所述的基于社交媒体数据的交通事件分类方法,其特征在于,所述从预设社交媒体平台上爬取交通事件数据并构建数据集,包括:获取所述交通事件数据的预设搜索条件;根据所述预设搜索条件从所述预设社交媒体平台中爬取相应的交通事件数据;在所述交通事件数据中筛选得到满足预设价值条件的有效数据,根据所述有效数据构建所述数据集。3.根据权利要求1所述的基于社交媒体数据的交通事件分类方法,其特征在于,所述对所述数据集进行预处理,包括:使用正则表达式去除所述数据集中的网页代码,提取得到文本数据;使用正则表达式去除所述文本数据的后缀;统计所述数据集中每条文本数据的长度,对长度小于预设下限值的文本数据进行文本增强;根据预设的交通事件类别对每条文本数据进行标注,得到预处理后的数据集。4.根据权利要求1所述的基于社交媒体数据的交通事件分类方法,其特征在于,所述将预处理后的数据集进行文本编码,并将文本编码后的数据集划分为训练集、验证集和测试集,包括:通过分词器对预处理后的数据集中的每条文本数据进行编码;根据预设调整规则将编码后的每条文本数据的长度均调整至预设长度,得到文本编码后的数据集;将文本编码后的数据集随机打乱,并调用预设分割函数将文本编码后的数据集按预设比例划分为训练集、验证集和测试集。5.根据权利要求1所述的基于社交媒体数据的交通事件分类方法,其特征在于,所述将所述训练集和验证集输入至预先构建的交通事件分类模型进行模型训练与效果评价,得到所述交通事件分类模型的最优超参数,其中所述交通事件分类模型中包括预训练模型之前,所述方法还包括:构建所述交通事件分类模型、用于训练所述交通事件分类模型的损失函数、用于控制参数更新的学习率策略以及用于评价模型效果的...

【专利技术属性】
技术研发人员:管中港林宏涛吕毅彬夏雨徐建闽
申请(专利权)人:广州运星科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1