一种基于神经网络的路况信息提取方法技术

技术编号:23363283 阅读:43 留言:0更新日期:2020-02-18 17:22
一种基于神经网络的路况信息提取方法,包括以下步骤:系统输入一段文本,输出结构化路况信息;经过分类模型判断是否包含路况,若不包含路况则直接结束;使用已有POI信息库和EVENT信息库提取文本中的POI和EVENT;将POI、EVENT形成候选对<实体1,实体2,上下文>;使用基于神经网络的关系模型判断候选对关系;将有关的候选对关联,形成完整的路况信息;输出结构化的路况信息<地点,事件>。本发明专利技术减少了人工构造特征的数量和复杂程度,在拓展时不需要引入新特征和处理特征之间的矛盾,降低了维护成本,增强拓展性,召回率得到了大幅提升。

A method of road condition information extraction based on Neural Network

【技术实现步骤摘要】
一种基于神经网络的路况信息提取方法
本专利技术涉及一种基于神经网络的路况信息提取方法,属于智能语义、语音识别领域。
技术介绍
随着经济发展,城市车辆增多,城市交通拥堵的问题日益严重,市民出行时对良好的交通道路规划需求迫切,而道路交通信息的采集是其重要基础。道路交通信息采集主要分为交通流信息的采集及交通事件的采集。前者的采集方法主要有浮动车交通信息采集、视频监控系统、基于微波、雷达等感应器的采集系统、通过移动App等方式搜集客户出行信息等,时效性及准确性已经达到较高的水平。但后者的采集涉及到道路上的交通事故、道路施工、交通管制、自然灾害等各种情况,具有突发性、多样性、复杂性等特点,难以通过机器来采集。目前的采集方式主要是通过用户上报采集。据统计,2016年实时交通动态事件采集中有80%以上来自于用户上报。此外还可以通过网络爬虫(交管局网站、微博)、交通广播语音转译获取的文本信息进行提取。对于结构化的文本,机器已经可自行处理。对于非结构化(多为口语化)的文本,如语音识别数据,微博文本数据等,需要进行语义理解提取出正确的地点描述信息、事件类型、发生时间等。近年来深度神经网络及其相关技术在图像处理、语音识别和自然语言处理等方面迅猛发展。对路况信息文本作信息提取,是一个复杂的自然语言处理问题。深度神经网络中的GRU(GatedRecurrentUnit)和Attention机制在一系列自然语言处理任务,包括中文分词、文本分类、命名实体识别、实体关系抽取、词向量表示等任务的应用极大的提高了相关任务的指标。本专利技术在路况信息提取系统中应用了上述深度神经网络技术。非结构化的文本数据具有口语描述方式复杂多样、多条路况信息的地点描述和事件描述混杂、需要结合外部地理信息理解等。过去从这样的文本中提取信息的方法主要有使用人工构建规则库或传统机器学习方法,如SVM等。它们均需要大量专家参与构建规则或特征库,成本高昂;这些特征与城市、说话人、季节、特定场景等联系紧密,拓展性差;模型的准确率较高,但路况提取的召回率较低。
技术实现思路
针对现有技术存在的问题,本专利技术采用简单特征与神经网络结合的方法,减少了人工构造特征的数量和复杂程度。本专利技术为解决上述问题,采用了如下技术方案:一种基于神经网络的路况信息提取方法,包括以下步骤:I.整个系统的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;II.针对输入的文本信息使用关键词、规则和SVM结合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;III.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;IV.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息。所述步骤Ⅳ具体判断步骤如下:A.对文本进行分词,分词需要引入人工构建的关键词库,关键词指口语中对路段信息匹配、事件信息匹配具有关键意义的词;B.通过神经网络进行路段信息匹配、事件信息匹配。所述步骤B神经网络进行匹配步骤如下:B1:为给定的两个实体POI-POI、POI-EVENT及其所在的上下文,判断其关系,如果两实体为POI,则判断其是否构成同一路况事件的地点描述,即两实体是Road-Start,Start-End或无关的关系;如果两实体为POI和EVENT,则判断其是否构成一条路况事件,即两实体是有关或无关的关系;B2:将上下文中的词用经过对大规模文本预训练得到的词表示,预训练得到的词用wordembedding表示;预训练的文本包括wiki百科及搜集到的路况信息标注文本,待预测的实体用POI、EVENT替代,同时引入地点类型、事件类型两特征表示待预测的实体,将具有相同意义的特殊词使用统一词向量代替;B3:根据词和实体在上下文中的相对位置作位置编码,即positionencoding;B4:对文本及实体做预处理,将一些简单的上下文的特征也作为模型输入;B5:将wordembedding、positionencoding连接为输入向量;B6:使用BidirectionalGRUEncoder将输入向量序列进行编码得到上下文表示向量;B7:使用Attention机制对编码后的上下文表示向量进行加权;B8:将加权后的上下文表示向量与人工构建的上下文特征相连;B9:使用全连接网络进行实体关系分类。通过本专利技术技术方案的实施,减少了人工构造特征的数量和复杂程度,例如现有技术对北京、上海、深圳、沈阳等四个主要城市进行人工设计特征,需要约30人天,采取本专利技术的方法则完全避免了这些人力成本,同时在拓展时不需要引入新特征和处理特征之间的矛盾,降低了模型维护成本,增强了模型拓展性;在准确率和精心特征工程的传统机器学习相比略微提升的前提下,召回率得到了大幅提升,约提升15%左右。附图说明图1系统总流程图;图2关系判断模型具体流程。具体实施方式相关符合和术语说明:I.POI:地点词,包括地理描述由Road(道路名)、Start(路段起点)、End(路段终点)3类POI构成;II.EVENT:交通事件描述;III.当实体对为POI-POI时,有道路-起点(Road-Start)、起点-终点(Start-End)、无关三类关系;如果两对关系分别为Road-Start和Start-End的实体对的起点为同一地点,则认为它们构成Road-Start-End的关系;IV.当实体对为POI-EVENT时,有地点-事件有关、地点-事件无关两类关系。根据附图所示,对本专利技术的具体实施方案进行详细描述:一种基于神经网络的路况信息提取方法,主要包括如下实施步骤:V.整个系统的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;VI.针对输入的文本信息使用关键词、规则和SVM三个综合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;该步骤主要为了解决误报的问题,如语音翻译错误导致文本中带有地点信息、事件信息造成的误报;VII.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;VIII.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息:A.对文本进行分词,分词需要引入人工构建的关键词库,关键词指口语中对路段信息匹配、事件信息匹配具有关键意义的词,如分隔词、否定词等;B.通过附图2神经网络进行路段信息匹配、事件信息匹配:B1:为给定两个本文档来自技高网
...

【技术保护点】
1.一种基于神经网络的路况信息提取方法,包括以下步骤:/nI.整个系统的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;/nII.针对输入的文本信息使用关键词、规则和SVM结合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;/nIII.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;/nIV.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息。/n

【技术特征摘要】
1.一种基于神经网络的路况信息提取方法,包括以下步骤:
I.整个系统的输入为一段文本,其中或包含路况信息,或不包含路况信息,输出为结构化后的路况信息;
II.针对输入的文本信息使用关键词、规则和SVM结合来进行分类,分类标准为是否带有有效的路况信息,只处理包含路况信息的文本;
III.利用已有的地理位置信息及路况事件信息库提取出文本中的POI和EVENT,形成完整地点信息候选对<POI1,POI2>和地点信息-路况信息候选对<POI,EVENT>;
IV.将上述候选对通过神经网络模型、人工规则、引入外部信息结合的方式判断其关系,形成完整的路况事件信息。


2.根据权利要求1所述的一种基于神经网络的路况信息提取方法,其特征在于:所述步骤Ⅳ具体判断步骤如下:
A.对文本进行分词,分词需要引入人工构建的关键词库,关键词指口语中对路段信息匹配、事件信息匹配具有关键意义的词;
B.通过神经网络进行路段信息匹配、事件信息匹配。


3.根据权利要求2所述的一种基于神经网络的路况信息提取方法,其特征在于:所述步骤B神经网络进行匹配步骤如下:
B1:为给定的两个实体POI-POI、POI-EVENT及...

【专利技术属性】
技术研发人员:杨喆
申请(专利权)人:普强信息技术北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1