交通情报处理方法、装置、计算机设备和存储介质制造方法及图纸

技术编号：36289483 阅读：21 留言：0更新日期：2023-01-13 10:01

本申请涉及一种交通情报处理方法、装置、计算机设备和存储介质。所述方法包括：基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报；对交通情报进行排重处理；根据训练好的分类模型筛除排重处理后的交通情报中的无效数据，获得待拆解的交通情报；对待拆解的交通情报进行结构化拆解，并存储拆解得到的数据。本申请实施例能够准确剔除互联网的冗余交通新闻文本、保证交通情报的高时效性以及准确解析交通情报内容等功能。及准确解析交通情报内容等功能。及准确解析交通情报内容等功能。

全部详细技术资料下载

【技术实现步骤摘要】
交通情报处理方法、装置、计算机设备和存储介质

[0001]本申请涉及数据采集领域，特别是涉及一种交通情报处理方法、装置、计算机设备和存储介质。

技术介绍

[0002]随着移动通信设备的深度普及以及移动互联网应用的飞速发展，用户可以更加方便地获取实时交通信息；基于这些设备和应用获取的海量用户实时位置信息，管理者可以更加及时准确地了解公共交通需求，为设计更合理的交通运行诱导提供数据支撑。在此背景下，网约出租车、共享出行、共享单车、定制公交等新型商业模式应运而生，并且迅速获得广大出行者们的青睐。同时，车辆技术、通信技术、大数据技术和人工智能技术的发展及其与移动互联网技术的结合，使得车路协同，无人驾驶等高级阶段的交通应用也开始逐渐走入日常的交通场景。与此同时，传统的交通规划与管理模式也需要借助移动互联网的快速发展而升级换代，“互联网+交通运输”已经成为我们日常生活中不可或缺的一部分，随着未来技术的发展，它还将更加深入地影响和改变人类的出行模式。
[0003]互联网规模的不断扩大，随之而来的是网络信息资源的爆炸式增长，但面对浩瀚的数据资源，如何有效的快速获取自己所需或用户感兴趣的内容(比如交通情报)，使网络资源得以充分利用仍是个亟待解决的难题。
[0004]对于交通情报，交通情报作为真实交通情况的抽象阐述，通常有着“内容多”、“解析难”和“变更快”等特点。
[0005](1)交通信息的冗余程度较高
[0006]在互联网资源中，不难发现同类信息或表述相同的交通资讯在各大平台中反复出现。这种资料的重...

【技术保护点】

【技术特征摘要】
1.一种交通情报处理方法，其特征在于，所述方法包括：基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报；对所述交通情报进行排重处理；根据训练好的分类模型筛除排重处理后的交通情报中的无效数据，获得待拆解的交通情报；对所述待拆解的交通情报进行结构化拆解，并存储拆解得到的数据。2.如权利要求1所述的方法，其特征在于，所述基于指定的文本筛选规则从目标网站爬取交通新闻文本作为交通情报，包括：从目标网站爬取包含指定关键字且不包含指定排除关键字的交通新闻文本作为交通情报。3.如权利要求1或2所述的方法，其特征在于，对所述交通情报进行排重处理，包括：对所述交通情报进行排重预处理，得到预处理后的交通情报；所述去重预处理包括进行分词处理和/或停用词处理；将所述预处理后的交通情报进行拼接处理，得到多条长文本；使用文本相似度算法计算所述多条长文本间的相似度，生成相似度矩阵；根据预设阈值确定所述相似度矩阵中的高相似度文本集合；根据预设排重策略剔除所述高相似度文本集合中的目标相似文本，得到所述排重处理后的交通情报。4.如权利要求1所述的方法，其特征在于，根据训练好的分类模型筛除排重处理后的交通情报中的无效数据，获得待拆解的交通情报，包括：使用训练好的分类模型识别排重处理后的交通情报中的无效数据；将所述无效数据从所述排重处理后的交通情报中剔除，获得待拆解的交通情报。5.如权利要求1或4所述的方法，其特征在于，所述分类模型的训练过程，包括：获取用于训练分类模型的交通新闻训练文本；对所述交通新闻训练文本进行预处理，所述预处理包括分段处理和/或无效字符剔除处理；为预处理后的交通新闻训练文本的每个文本段落设置对应的标注数据，其中，所述文本段落对应的标注数据用于表示所述文本段落为有效或无效；...

【专利技术属性】
技术研发人员：刘晟源，吴玉花，李少曼，王子成，魏媛媛，
申请(专利权)人：深圳依时货拉拉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人