交通情报处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:36289483 阅读:21 留言:0更新日期:2023-01-13 10:01
本申请涉及一种交通情报处理方法、装置、计算机设备和存储介质。所述方法包括:基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报;对交通情报进行排重处理;根据训练好的分类模型筛除排重处理后的交通情报中的无效数据,获得待拆解的交通情报;对待拆解的交通情报进行结构化拆解,并存储拆解得到的数据。本申请实施例能够准确剔除互联网的冗余交通新闻文本、保证交通情报的高时效性以及准确解析交通情报内容等功能。及准确解析交通情报内容等功能。及准确解析交通情报内容等功能。

【技术实现步骤摘要】
交通情报处理方法、装置、计算机设备和存储介质


[0001]本申请涉及数据采集领域,特别是涉及一种交通情报处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着移动通信设备的深度普及以及移动互联网应用的飞速发展,用户可以更加方便地获取实时交通信息;基于这些设备和应用获取的海量用户实时位置信息,管理者可以更加及时准确地了解公共交通需求,为设计更合理的交通运行诱导提供数据支撑。在此背景下,网约出租车、共享出行、共享单车、定制公交等新型商业模式应运而生,并且迅速获得广大出行者们的青睐。同时,车辆技术、通信技术、大数据技术和人工智能技术的发展及其与移动互联网技术的结合,使得车路协同,无人驾驶等高级阶段的交通应用也开始逐渐走入日常的交通场景。与此同时,传统的交通规划与管理模式也需要借助移动互联网的快速发展而升级换代,“互联网+交通运输”已经成为我们日常生活中不可或缺的一部分,随着未来技术的发展,它还将更加深入地影响和改变人类的出行模式。
[0003]互联网规模的不断扩大,随之而来的是网络信息资源的爆炸式增长,但面对浩瀚的数据资源,如何有效的快速获取自己所需或用户感兴趣的内容(比如交通情报),使网络资源得以充分利用仍是个亟待解决的难题。
[0004]对于交通情报,交通情报作为真实交通情况的抽象阐述,通常有着“内容多”、“解析难”和“变更快”等特点。
[0005](1)交通信息的冗余程度较高
[0006]在互联网资源中,不难发现同类信息或表述相同的交通资讯在各大平台中反复出现。这种资料的重复出现,导致用户获取所需精准信息的时间过长。因此,去除网络冗余信息,提供信息检索速度,获取精准信息,节约时间是交通情报处理的重要难点。
[0007](2)交通信息的解析难度较大
[0008]通常,交通信息会包含时间、区域、对象等关键信息。在这些信息中,区域的解析难度最大,道路名称作为道路矢量数据的通用表示,无法以直观且可视化的方式表达出该道路所在的位置。同时,对于一些交通的特殊专有名词,没有相关领域知识背景的人难以理解其所包含的信息。即使是获取了相关领域的信息资源,一般大众也难以对该信息的有效性、精准性进行识别,因此在不同程度上影响了人们获取信息的深度。
[0009](3)交通信息的变更频率较快
[0010]通常,交通新闻对于现势性的要求很高,有些类型的交通信息(例如:施工、路况和事故信息等)甚至可以达到小时粒度级别的更新。对于这类交通信息,如果无法实现实时监控,则很容易遗漏掉关键内容,继而影响用户对于路况的判断。

技术实现思路

[0011]本申请针对上述不足或缺点,提供了一种交通情报处理方法、装置、计算机设备和
存储介质,本申请实施例能够实现对互联网交通情报的快速采集、交通情报的预处理、交通情报的准确排重以及交通情报的结构化拆解等操作,进而实现准确剔除互联网的冗余交通新闻文本、保证交通情报的高时效性以及准确解析交通情报内容等功能。
[0012]本申请根据第一方面提供了一种交通情报处理方法,在一个实施例中,该方法包括:
[0013]基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报;
[0014]对交通情报进行排重处理;
[0015]根据训练好的分类模型筛除排重处理后的交通情报中的无效数据,获得待拆解的交通情报;
[0016]对待拆解的交通情报进行结构化拆解,并存储拆解得到的数据。
[0017]在一个实施例中,基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报,包括:
[0018]从目标网站爬取包含指定关键字且不包含指定排除关键字的交通新闻文本作为交通情报。
[0019]在一个实施例中,对交通情报进行排重处理,包括:
[0020]对交通情报进行排重预处理,得到预处理后的交通情报;去重预处理包括进行分词处理和/或停用词处理;
[0021]将预处理后的交通情报进行拼接处理,得到多条长文本;
[0022]使用文本相似度算法计算多条长文本间的相似度,生成相似度矩阵;
[0023]根据预设阈值确定相似度矩阵中的高相似度文本集合;
[0024]根据预设排重策略剔除高相似度文本集合中的目标相似文本,得到排重处理后的交通情报。
[0025]在一个实施例中,根据训练好的分类模型筛除排重处理后的交通情报中的无效数据,获得待拆解的交通情报,包括:
[0026]使用训练好的分类模型识别排重处理后的交通情报中的无效数据;
[0027]将无效数据从排重处理后的交通情报中剔除,获得待拆解的交通情报。
[0028]在一个实施例中,分类模型的训练过程,包括:
[0029]获取用于训练分类模型的交通新闻训练文本;
[0030]对交通新闻训练文本进行预处理,预处理包括分段处理和/或无效字符剔除处理;
[0031]为预处理后的交通新闻训练文本的每个文本段落设置对应的标注数据,其中,文本段落对应的标注数据用于表示文本段落为有效或无效;
[0032]将预处理后的交通新闻训练文本及其中每个文本段落对应的标注数据作为训练样本;
[0033]根据训练样本训练构建好的初始分类模型,得到训练好的分类模型。
[0034]在一个实施例中,待拆解的交通情报的数量为多条;对待拆解的交通情报进行结构化拆解,包括:
[0035]根据训练好的实体识别模型识别每条待拆解的交通情报中的交通情报实体;
[0036]基于指定策略以及每条待拆解的交通情报中的交通情报实体,判断每条待拆解的交通情报是否有效;
[0037]将判断结果为有效的每条待拆解的交通情报作为拆解得到的数据。
[0038]在一个实施例中,实体识别模型的训练过程,包括:
[0039]获取用于训练实体识别模型的待拆解训练文本;
[0040]构建道路情报字典;
[0041]使用BIO标注法对待拆解训练文本进行实体标注;
[0042]根据道路情报字典和进行实体标注后的待拆解训练文本生成模型数据集;
[0043]根据模型数据集训练构建好的初始实体识别模型,得到训练好的实体识别模型。
[0044]本申请根据第二方面提供了一种交通情报处理装置,在一个实施例中,该装置包括:
[0045]爬取模块,用于基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报;
[0046]排重模块,用于对交通情报进行排重处理;
[0047]筛除模块,用于根据训练好的分类模型筛除排重处理后的交通情报中的无效数据,获得待拆解的交通情报;
[0048]拆解模块,用于对待拆解的交通情报进行结构化拆解,并存储拆解得到的数据。
[0049]本申请根据第三方面提供了一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,处理器执行计算机程序时实现上述任一方法的实施例的步骤。
[005本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种交通情报处理方法,其特征在于,所述方法包括:基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报;对所述交通情报进行排重处理;根据训练好的分类模型筛除排重处理后的交通情报中的无效数据,获得待拆解的交通情报;对所述待拆解的交通情报进行结构化拆解,并存储拆解得到的数据。2.如权利要求1所述的方法,其特征在于,所述基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报,包括:从目标网站爬取包含指定关键字且不包含指定排除关键字的交通新闻文本作为交通情报。3.如权利要求1或2所述的方法,其特征在于,对所述交通情报进行排重处理,包括:对所述交通情报进行排重预处理,得到预处理后的交通情报;所述去重预处理包括进行分词处理和/或停用词处理;将所述预处理后的交通情报进行拼接处理,得到多条长文本;使用文本相似度算法计算所述多条长文本间的相似度,生成相似度矩阵;根据预设阈值确定所述相似度矩阵中的高相似度文本集合;根据预设排重策略剔除所述高相似度文本集合中的目标相似文本,得到所述排重处理后的交通情报。4.如权利要求1所述的方法,其特征在于,根据训练好的分类模型筛除排重处理后的交通情报中的无效数据,获得待拆解的交通情报,包括:使用训练好的分类模型识别排重处理后的交通情报中的无效数据;将所述无效数据从所述排重处理后的交通情报中剔除,获得待拆解的交通情报。5.如权利要求1或4所述的方法,其特征在于,所述分类模型的训练过程,包括:获取用于训练分类模型的交通新闻训练文本;对所述交通新闻训练文本进行预处理,所述预处理包括分段处理和/或无效字符剔除处理;为预处理后的交通新闻训练文本的每个文本段落设置对应的标注数据,其中,所述文本段落对应的标注数据用于表示所述文本段落为有效或无效;...

【专利技术属性】
技术研发人员:刘晟源吴玉花李少曼王子成魏媛媛
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1