地址信息解析方法、装置、设备及存储介质制造方法及图纸

技术编号:27975790 阅读:33 留言:0更新日期:2021-04-06 14:10
本发明专利技术涉及人工智能领域,公开了一种地址信息解析方法、装置、设备及存储介质,用于将用户上传的待识别地址文本转化为标准地址文本,该方法包括:利用网页爬虫工具从预设的数据源中爬取原始地址数据;从原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据,并进行标注,得到模型训练数据;根据模型训练数据和预设的神经网络,训练得到地址信息解析模型;获取用户上传的待识别地址文本,并将待识别地址文本输入至地址信息解析模型中,获得待识别地址文本中各字符的行政区划标注;根据待识别地址文本中各字符的行政区划标注,将待识别地址文本转化为标准地址文本。此外,本发明专利技术还涉及区块链技术,所述待识别地址文本可存储于区块链中。

【技术实现步骤摘要】
地址信息解析方法、装置、设备及存储介质
本专利技术涉及人工智能领域,尤其涉及一种地址信息解析方法、装置、设备及存储介质。
技术介绍
基于位置信息的服务在人们的生活中应用越来越广泛,根据文本地址表达快速准确地查找其地理坐标的需求日益增长。一个规范的中文地址应包含完整的行政区划,并按照行政区划(省/市/县/乡/村)、路街、牌号、建筑、户室的次序来表达,特征字明显,利用中文地址切分算法可解析,从而可以准确地与该地址的地理位置对应。然而,中文地址的非规范化表述造成位置语义信息模糊或歧义性,妨碍了计算机直接理解此地址信息所描述的地理位置,使得这样的中文地址信息不能够被计算机直接用于位置服务。现有的地址解析算法(中文地址要素切分方法、词库匹配法、特征字切分法等)依赖于地址规范性、特征字以及地址词典,无法很好地解决非规范的中文地址问题,使得这样的中文地址信息不能够被计算机直接用于位置服务。
技术实现思路
本专利技术的主要目的在于解决现有的地址解析算法依赖于地址规范性、特征字以及地址词典导致解析非规范的中文地址准确率低的技术问题。<本文档来自技高网...

【技术保护点】
1.一种地址信息解析方法,其特征在于,所述地址信息解析方法包括:/n利用网页爬虫工具从预设的数据源中爬取原始地址数据;/n从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据,并对所述地址表述数据进行标注,得到模型训练数据;/n根据所述模型训练数据和预设的神经网络,训练得到地址解析模型;/n获取用户上传的待识别地址文本,并将所述待识别地址文本输入至所述地址解析模型中,获得所述待识别地址文本中各字符的行政区划标注;/n根据所述待识别地址文本中各字符的行政区划标注,将所述待识别地址文本转化为标准地址文本。/n

【技术特征摘要】
1.一种地址信息解析方法,其特征在于,所述地址信息解析方法包括:
利用网页爬虫工具从预设的数据源中爬取原始地址数据;
从所述原始地址数据中筛选出字符长度在预设长度区间内的地址表述数据,并对所述地址表述数据进行标注,得到模型训练数据;
根据所述模型训练数据和预设的神经网络,训练得到地址解析模型;
获取用户上传的待识别地址文本,并将所述待识别地址文本输入至所述地址解析模型中,获得所述待识别地址文本中各字符的行政区划标注;
根据所述待识别地址文本中各字符的行政区划标注,将所述待识别地址文本转化为标准地址文本。


2.根据权利要求1所述的地址信息解析方法,其特征在于,所述根据所述模型训练数据和预设的神经网络,训练得到地址解析模型包括:
将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量;
将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入,得到所述模型训练数据的隐输出序列;
将所述隐输出序列输入至所述神经网络中的条件随机场层,预测所述模型训练数据中各字符的标注,并与所述模型训练数据原有的标注进行比对和迭代,得到最终预训练的地址解析模型。


3.根据权利要求2所述的地址信息解析方法,其特征在于,所述将所述模型训练数据输入至所述神经网络中的嵌入层中,将所述模型训练数据中的每个字符转化为字向量包括:
将所述模型训练数据中的每个字符转化独热码向量;
将所述模型训练数据的独热码向量通过预训练好的向量矩阵转化为低维稠密的字向量。


4.根据权利要求3所述的地址信息解析方法,其特征在于,所述将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入,得到所述模型训练数据的隐输出序列包括:
将所述字向量输入作为所述神经网络中的双向长短期记忆网络层各个时间步的输入得到正向长短期记忆网络输出的隐状态序列和反向长短期记忆网络输出的隐状态序列;
将所述正向长短期记忆网络输出的隐状态序列和所述反向长短期记忆网络输出的隐状态序列进行拼接,得到完整的隐输出序列。


5.根据权利要求4所述的地址信息解析方法,其特征在于,在所述将所述隐输出序列输入至所述神经网络中的条件随机场层,预测所述模型训练数据中各字符的标注之后,还包括:
根据所述模型训练数据中各字符的标注,获得所述模型训练数据的行政区划序列;
判断所述行政区划序列中,是否出现标注类型相同的至少两段行政区划标注片段,其中,所述行政区划片段为连续相同的行政区划标注构成的片段;
若是,则对比较标注类型相同的行政区划标注片段在所述行政区划序列中的位置,并对标注类...

【专利技术属性】
技术研发人员:赵焕丽徐国强
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1