基于深度学习的地址数据解析方法技术

技术编号:24331200 阅读:23 留言:0更新日期:2020-05-29 19:39
本发明专利技术涉及一种基于深度学习的地址数据解析方法,将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;构建BiLSTM‑CNN‑CRF模型进行训练。本发明专利技术从地名地址解析的实际业务中遇到的问题出发,构建相应的地址解析抽象建模和数据多维度标注,将该业务中繁琐的分词‑匹配‑识别的过程解放出来,实现了端到端的融合处理方式。

Address data analysis method based on deep learning

【技术实现步骤摘要】
基于深度学习的地址数据解析方法
本专利技术属于地名地址解析
,具体涉及基于深度学习的地址数据解析方法。
技术介绍
在信息时代的今天,城市各部门都存有大量与地址有关的地理位置信息,这些数据大多是非空间信息,无法通过地理信息系统来实现行业之间的数据共享。因此,城市地址信息空间化是数字城市建设的重要组成部分。地理编码技术正是实现城市地址信息空间化的方法,它提供了一种将文本描述的地址信息转换为地理坐标的方式,通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实体位置。通过地理编码技术,大量的社会经济数据将变成坐标化的空间信息,从而进行更快速有效的空间分析,为政府决策提供支持。自然语言处理(NaturalLanguageProcessing,NLP)是一种让计算机能够理解人类语言的技术。其中,分词技术是一种基础任务。国际上常用的NLP算法,深层次的语法语义分析通常都是以词作为基本单位,分词通常是NLP的首要任务。当建立NLP领域的模型时,往往需要建模人员掌握一定的语言学知识才能够提取合适的特征。深度学习具有优秀的泛化能力,能够无监督地基于数据抽取特征,深度学习的优势就在于,从训练数据中学习到上下文信息特征,实验者需要做的部分是设计神经网络的结构,提供优质的训练数据。利用地理编码技术实现地址的快速查询匹配和社会经济数据的空间化,建立数据库统一管理,从而实现城市各部门、行业数据的共享。需要现有的地址分词模型,大幅度的提高了分词的准确率。本专利技术通过构建基于深度学习的地址解析算法,提高了地址残缺和歧义这两类模糊地址的解析成功率。
技术实现思路
技术问题:本专利技术针对传统的地名地址解析使用数据库全量检索匹配的方式(分词-匹配-识别),出现解析的速度慢和成功率低的问题,提供了一种基于深度学习的地址数据解析方法。本专利技术从地名地址解析的实际业务中遇到的问题出发,构建相应的地址解析抽象建模和数据多维度标注,将该业务中繁琐的分词-匹配-识别的过程解放出来,实现了端到端的融合处理方式。本专利技术将地址建模成为一个提取地址数据中关键地块信息的过程,进一步将该提取信息的过程抽象为对地块信息的多类别分类问题。在建立地址解析的深度学习模型时,将地址数据按照地址解析的需求继续多维度的数据标注,标注后的地址数据具有不同的标签内容,具体的是对地址数据中行政区划、道路、地块、门牌、楼栋、户室和干扰信息进行多类别的标注,其中重要的是对残缺和歧义的地址也按照相同的标注方式进行多维度标注。其中,训练出模型可以识别出地址中相应的地块信息,并能自动剔除掉地址数据中干扰和无用信息,大大提高了解析的准确度和速度。技术方案:本专利技术公开了一种基于深度学习的地址数据解析方法,包括:将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据。其中地址信息进行拆分标注得到序列词段文本,该序列词段文本作为训练数据通过词嵌入给每一个词赋一个词向量做地址文本的表达,使计算机读入该训练数据;其中,对中文地址长度设定阈值,若有超过该地址长度阈值的地址数据则被删除过滤;该深度学习模型搭建的整体流程首先将地址信息进行标注,这也是在模型训练过程中最消耗时间的工作,并将标注好的训练数据通过词嵌入技术做地址文本的表达,使计算机可以读懂输入的数据。其次将表达后的数据经过BiLSTM+CNN+CRF层组成的模型进行学习。最后将模型学习的结果输出,根据标注的结果来提取地址中的关键信息。如:′园区娄葑怡葑庭1幢109室′被标注成′OOA1A2C1C2C2F1F2E1E2E2E2′,其中O表示无用信息,C1到C2的结束是xx信息,F1到F2是xx信息,E1到E2是xx信息,根据标注的结果完成提取,用于地址解析。构建BiLSTM-CNN-CRF模型进行训练;将所述训练数据按序排列,通过词向量以及词性特征,确定词段结构关联性,并输出由所述词向量和词性特征拼接而成的张量特征。这当中涉及词嵌入技术主要是为了克服文字长短不均和将词与词之间的联系纳入模型中的困难。简单来说,就是给每一个词赋一个词向量,向量代表空间里面的点,含义接近的词,其词向量也接近,这样对于词的操作就可以转化为对于向量的操作了,在深度学习中,这被叫作张量(Tensor)。文本的张量蕴含了多个词之间的组合含义,这可以被认为是文本的特征工程,进而为机器学习和深度学习文本分析通过基础。将所述的地址训练数据按序排列,通过词嵌入确定词段结构关联性,并输出相应的词向量;这当中涉及词嵌入技术主要是为了克服文字长短不均和将词与词之间的联系纳入模型中的困难。简单来说,就是给每一个词选择合理的向量表达,向量代表空间里面的点,含义接近的词,其词向量也接近,这样对于词的操作就可以转化为对于向量的操作了,在深度学习中,这被叫作张量(Tensor)。文本的张量蕴含了多个词之间的组合含义,这可以被认为是文本的预处理过程,进而为机器学习和深度学习文本分析提供基础。通过BiLSTM模型和CNN模型将所述词向量按正向序列和反向序列分别结合上下文的关联信息融合学习并得到状态向量,该状态向量再次提取到BiLSTM模型中训练后并输送到CRF模型中,所述CRF模型自动提取序列规则并完成修正后输出关键地址序列信息;在序列标注任务(中文分词CWS,词性标注POS,命名实体识别NER等)中,目前主流的深度学习框架是BiLSTM+CRF。其中BiLSTM融合两组学习方向相反(一个按句子顺序,一个按句子逆序),理论上能够捕获当前地址信息中从前到后和从后到前的相互关系,简单的说就是了解了上下文后就可以更好的把握关键信息,所以使用BiLSTM模型更有利于对当前词进行标注。在模型训练时,调整模型复杂度对损失函数的影响来防止模型过拟合;其中,在训练的过程中每隔5个轮次,将训练的学习率调整为原来的一半,使模型能够更好的训练下去,得到最优的地址关键信息提取模型。比如,用dropout代码层和keras.callback中的earlystopping函数防止模型过拟合,利用keras.callback中的LearningRateScheduler函数来调整学习率,训练时每隔5个epoch,使得学习率减小为原来的一半。通过张量表示词可以克服文字长短不均的问题,因为如果每个词已经有对应的词向量,那么对于长度为N的文本,只要选取对应的N个词所代表的向量并按文本中词的先后顺序排在一起,就是输入张量了,其中每个词向量的维度都是一样的。另外,词本身无法形成特征,但是张量就是抽象的量化,它是通过多层神经网络的层层抽象计算出来的。还有文本是由词组成的,文本的特征可以由词的张量组合。有益效果:本专利技术提供了一种基于深度学习的地址数据解析方法,通过地址解析抽象建模和数据多维度标注,词嵌入技术克服文字长短不均的问题,因为如果每个词已经有对应的词向量,那么对于长度为N的文本,只要选取对应的N个词所代表的向量并按文本中词的先后本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的地址数据解析方法,其特征在于,包括:/n将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;/n将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;/n构建BiLSTM-CNN-CRF模型进行训练;/n将所述的地址训练数据按序排列,通过词嵌入确定词段结构关联性,并输出相应的词向量;/n通过BiLSTM模型和CNN模型将所述词向量按正向序列和反向序列分别结合上下文的关联信息融合学习并得到状态向量,该状态向量再次提取到BiLSTM模型中训练后并输送到CRF模型中,所述CRF模型自动提取序列规则并完成修正后输出关键地址序列信息;/n在模型训练时,调整模型复杂度对损失函数的影响来防止模型过拟合;其中,在训练的过程中每隔5个轮次,将训练的学习率调整为原来的一半。/n

【技术特征摘要】
1.一种基于深度学习的地址数据解析方法,其特征在于,包括:
将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;
将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;
构建BiLSTM-CNN-CRF模型进行训练;
将所述的地址训练数据按序排列,通过词嵌入确定词段结构关联性,并输出相...

【专利技术属性】
技术研发人员:张磊陶虹张旭方
申请(专利权)人:苏州城方信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1