基于深度学习的地址数据解析方法技术

技术编号:24331200 阅读:39 留言:0更新日期:2020-05-29 19:39
本发明专利技术涉及一种基于深度学习的地址数据解析方法,将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;构建BiLSTM‑CNN‑CRF模型进行训练。本发明专利技术从地名地址解析的实际业务中遇到的问题出发,构建相应的地址解析抽象建模和数据多维度标注,将该业务中繁琐的分词‑匹配‑识别的过程解放出来,实现了端到端的融合处理方式。

Address data analysis method based on deep learning

【技术实现步骤摘要】
基于深度学习的地址数据解析方法
本专利技术属于地名地址解析
,具体涉及基于深度学习的地址数据解析方法。
技术介绍
在信息时代的今天,城市各部门都存有大量与地址有关的地理位置信息,这些数据大多是非空间信息,无法通过地理信息系统来实现行业之间的数据共享。因此,城市地址信息空间化是数字城市建设的重要组成部分。地理编码技术正是实现城市地址信息空间化的方法,它提供了一种将文本描述的地址信息转换为地理坐标的方式,通过编码技术和地址匹配来确定此地址数据在电子地图上对应的地理实体位置。通过地理编码技术,大量的社会经济数据将变成坐标化的空间信息,从而进行更快速有效的空间分析,为政府决策提供支持。自然语言处理(NaturalLanguageProcessing,NLP)是一种让计算机能够理解人类语言的技术。其中,分词技术是一种基础任务。国际上常用的NLP算法,深层次的语法语义分析通常都是以词作为基本单位,分词通常是NLP的首要任务。当建立NLP领域的模型时,往往需要建模人员掌握一定的语言学知识才能够提取合适的特征。深度学习具有优秀的泛化能力,本文档来自技高网...

【技术保护点】
1.一种基于深度学习的地址数据解析方法,其特征在于,包括:/n将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;/n将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;/n构建BiLSTM-CNN-CRF模型进行训练;/n将所述的地址训练数据按序排列,通过词嵌入确定词段结构关联性,并输出相应的词向量;/n通过BiLSTM模型和CNN模型将所述词向量按正向序列和反向序列分别结合上下文的关联信息融合学习并得到状态向量,该状态向量再次提取到BiLSTM模型中训练后并输送到CRF模型中,所述CRF模型自动提取序...

【技术特征摘要】
1.一种基于深度学习的地址数据解析方法,其特征在于,包括:
将地址数据按照地址解析要求映射到相应关键地块信息进行多维度的数据标注,标注后的关键地块信息数据具有不同类别的标签地址名称内容文本;
将所述多维度标注的地址名称内容文本进行分词处理生成地址训练数据;
构建BiLSTM-CNN-CRF模型进行训练;
将所述的地址训练数据按序排列,通过词嵌入确定词段结构关联性,并输出相...

【专利技术属性】
技术研发人员:张磊陶虹张旭方
申请(专利权)人:苏州城方信息技术有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1