当前位置: 首页 > 专利查询>同济大学专利>正文

基于BERT和DNN模型的交通社交媒体数据处理方法技术

技术编号:26730672 阅读:38 留言:0更新日期:2020-12-15 14:31
本发明专利技术涉及一种基于BERT和DNN模型的交通社交媒体数据处理方法,具体包括以下步骤:步骤S1:获取交通领域的社交媒体数据或与交通相关的社交媒体数据,并对交通领域的社交媒体数据或与交通相关的社交媒体数据进行数据预处理;步骤S2:调整BERT模型和DNN模型;步骤S3:通过调整后的BERT模型和DNN模型构建分析框架,根据分析框架对完成数据预处理的交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析。与现有技术相比,本发明专利技术具有提高社交媒体数据分析的效率和准确度等优点。

【技术实现步骤摘要】
基于BERT和DNN模型的交通社交媒体数据处理方法
本专利技术涉及交通数据分析领域,尤其是涉及一种基于BERT和DNN模型的交通社交媒体数据处理方法。
技术介绍
社交媒体数据作为目前主要的数据来源之一,提供了新角度的用户信息和新方向的分析视角。与传统的统计数据相比较,社交媒体数据为各个领域提供了用户主观的数据信息,同时社交媒体平台的特性使得所获取到的社交媒体数据可以涵盖极大的用户规模和范围,包含多种用户类型和社会关系,动态更新的社交媒体数据还具有很好的时效性,这些都是传统调查统计手段及其获取的数据所无法比拟的。社交媒体数据在交通领域的应用是较新的尝试,近年来,主要包括关于出行需求模型的研究、关于集计出行行为的研究、关于个人出行行为的研究、关于公共交通的评估研究、关于交通情况的研究以及关于自然灾害下交通系统的研究几个方面,在以上研究领域中,针对社交媒体数据的内容分析是研究社交媒体数据的基础技术。BERT是一种新语言表示模型,具有以下特点:一、具有Transformer机制,即双向编码器表示机制,与现有的标准语言模型不同,其摒弃了从左至右的单向性模型训练方式,而是结合左右上下文语境共同进行模型的预处理,能够实现这样的预处理功能,是因为BERT模型中的Transformer包含一个encoder机制,采用一次性读取整个文本序列的方式,使得模型可以基于每个词组的两侧进行学习;二、仅需一个输出层就可以对预处理后的模型进行微调,对于语言环境丰富、表述方式丰富的公共交通舆情领域,可以较为轻松地构建适用于不同任务的BERT模型,而不需要针对具体任务进行大量的模型体系修改。多层感知机(MLP)也被称为全连接神经网络(DNN),其工作机制模拟了生物大脑。感知机只有输入层和输出层,没有隐藏层,其学习能力较弱,无法完成线性不可分的任务,但多层感知机中某个神经元节点的值受其他多个神经元节点的影响。在多层感知机中,神经元节点被分成不同的层,包括输出层、以及若干个隐藏层组成,隐藏层越多,模型复杂度越高,也越能拟合更加复杂的分布。
技术实现思路
本专利技术的目的就是为了克服上述现有技术存在的社交媒体数据分析的效率和准确度较低、不适用于复杂分布的缺陷而提供一种基于BERT和DNN模型的交通社交媒体数据处理方法。本专利技术的目的可以通过以下技术方案来实现:一种基于BERT和DNN模型的交通社交媒体数据处理方法,具体包括以下步骤:步骤S1:获取交通领域的社交媒体数据或与交通相关的社交媒体数据,并对所述交通领域的社交媒体数据或与交通相关的社交媒体数据进行数据预处理;步骤S2:调整BERT模型和DNN模型;步骤S3:通过调整后的所述BERT模型和DNN模型构建分析框架,根据所述分析框架对完成数据预处理的交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析。所述交通领域的社交媒体数据或与交通相关的社交媒体数据具体为从社交媒体平台上获取的基于交通领域的交通社交媒体数据。所述数据预处理的操作包括删除无用字符、文本向量化、数据过滤和数据特征提取。进一步地,所述数据过滤的公式具体如下:其中,similarity为过滤后的交通领域的社交媒体数据或与交通相关的社交媒体数据,tar_vec为与交通领域相关的文本对应的向量,ori_vec为与要过滤的文本对应的向量。进一步地,所述数据特征提取的公式具体如下:其中,Content_feature是数据特征,n是输入文本数据的字符数,word_veci是输入中的第i个特征字符对应的特征向量。每个特征字符对应的是1*768维度的特征向量。所述删除无用字符的过程包括通过编写正则表达式来匹配和消除html标记元素、特殊符号或多余字符。所述文本向量化的过程包括通过word2vec对获取的所述交通领域的社交媒体数据或与交通相关的社交媒体数据进行文本向量化。所述步骤S2中对BERT模型进行调整的过程具体为:步骤S201:根据设定的训练集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为训练数据集,对BERT模型进行训练;步骤S202:根据设定的验证集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为验证数据集,在训练模型的过程中对模型的性能进行验证;步骤S203:根据设定的测试集比例从交通领域的社交媒体数据或与交通相关的社交媒体数据中选取相应比例的交通领域的社交媒体数据或与交通相关的社交媒体数据作为测试数据集,在模型调整完毕后对调整后的BERT模型进行测试。所述步骤S2中对DNN模型进行调整的过程具体包括超参数调优和模型内部结构调优。进一步地,所述超参数调优的过程包括确定初始参数和确定网络结构。所述初始参数通过全局优化法进行选取,所述网络结构通过设置网络结构隐藏层的个数以及每个隐层的节点个数进行确定,并且通过dropout方法避免DNN模型过度拟合。进一步地,所述超参数调优的最优超参数通过网格搜索算法进行确定,所述网格搜索算法的具体过程为穷举所有指定参数的候选值的组合,然后遍历所有组合作为超参数取值,生成相应模型在训练集上进行训练,通过评估指标评估模型在验证集上的预测效果,其中在验证集上预测效果最好的模型对应的超参数取值即为最终的最优超参数。进一步地,所述模型内部结构调优的过程具体为选择一个初始点进行迭代,在迭代过程中决定梯度下降的方向,根据梯度下降的方向最终确定权重参数的数值。所述分析框架为双层分析框架,第一层级为粗粒度内容分析框架,分析输出模型的标签值;第二层级为细粒度内容分析框架,对标签值的内容进行细化。与现有技术相比,本专利技术具有以下有益效果:1.本专利技术通过BERT模型和DNN模型对交通社交媒体数据进行内容分析,对社交媒体数据的文本内容进行过滤并提取特征向量,有效提升了对社交媒体数据分析的效率和准确度。2.本专利技术实用性强,通过对交通领域社交媒体数据进行内容分析,可以有效获知出行者对于交通服务品质的主观评价,促进交通领域服务品质升级。3.本专利技术应用性广,获取的社交媒体数据覆盖交通的多个领域、时间和事件,针对多样的需求选取数据进行分析。4.本专利技术节约成本,利用数据和模型,相比于传统的交通调查获取数据,无需其他人工调查和硬件设施。附图说明图1为本专利技术的流程示意图;图2为本专利技术实施例一的社交媒体数据的内容反馈的时间变化图;图3为本专利技术实施例一的粗粒度分析层面结果饼图;图4为本专利技术实施例一的细粒度分析层面结果饼图。具体实施方式下面结合附图和具体实施例对本专利技术进行详细说明。本实施例以本专利技术技术方案为前提进行实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不本文档来自技高网
...

【技术保护点】
1.一种基于BERT和DNN模型的交通社交媒体数据处理方法,其特征在于,具体包括以下步骤:/n步骤S1:获取交通领域的社交媒体数据或与交通相关的社交媒体数据,并对所述交通领域的社交媒体数据或与交通相关的社交媒体数据进行数据预处理;/n步骤S2:调整BERT模型和DNN模型;/n步骤S3:通过调整后的所述BERT模型和DNN模型构建分析框架,根据所述分析框架对完成数据预处理的交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析。/n

【技术特征摘要】
1.一种基于BERT和DNN模型的交通社交媒体数据处理方法,其特征在于,具体包括以下步骤:
步骤S1:获取交通领域的社交媒体数据或与交通相关的社交媒体数据,并对所述交通领域的社交媒体数据或与交通相关的社交媒体数据进行数据预处理;
步骤S2:调整BERT模型和DNN模型;
步骤S3:通过调整后的所述BERT模型和DNN模型构建分析框架,根据所述分析框架对完成数据预处理的交通领域的社交媒体数据或与交通相关的社交媒体数据进行内容分析。


2.根据权利要求1所述的一种基于BERT和DNN模型的交通社交媒体数据处理方法,其特征在于,所述交通领域的社交媒体数据或与交通相关的社交媒体数据具体为从社交媒体平台上获取的基于交通领域的交通社交媒体数据。


3.根据权利要求1所述的一种基于BERT和DNN模型的交通社交媒体数据处理方法,其特征在于,所述数据预处理的操作包括删除无用字符、文本向量化、数据过滤和数据特征提取。


4.根据权利要求3所述的一种基于BERT和DNN模型的交通社交媒体数据处理方法,其特征在于,所述数据过滤的公式具体如下:



其中,similarity为过滤后的交通领域的社交媒体数据或与交通相关的社交媒体数据,tar_vec为与交通领域相关的文本对应的向量,ori_vec为与要过滤的文本对应的向量。


5.根据权利要求3所述的一种基于BERT和DNN模型的交通社交媒体数据处理方法,其特征在于,所述数据特征提取的公式具体如下:



其中,Content_feature是数据特征,n是输入文本数据的字符数,word_veci是输入中的第i个特征字符对应的特征向量。

【专利技术属性】
技术研发人员:李健李梓叶
申请(专利权)人:同济大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1