一种基于最大概率融合的地址单元解析方法及装置制造方法及图纸

技术编号:37447701 阅读:27 留言:0更新日期:2023-05-06 09:19
本发明专利技术公开了一种基于最大概率融合的地址单元解析方法及装置,属于数据处理及地址解析技术领域,该方法的实现方式如下:S1、生成地址单元的多个分值向量:采用多个已训练地址单元标注模型处理数据,获得每个地址单元的多个分值向量;S2、融合地址单元的分值向量并生成标注结果:基于分值最大化原则融合不同地址单元标注模型生成的分值向量,并生成地址单元的标注结果;S3、从标注结果中提取地址单元:根据地址单元标注结果,从待处理文本中提取地址单元实体及其类型。本发明专利技术可以解决多数模型质量不好导致的投票结果不可信问题,有助于提高地址单元解析的质量。址单元解析的质量。址单元解析的质量。

【技术实现步骤摘要】
一种基于最大概率融合的地址单元解析方法及装置


[0001]本专利技术涉及数据处理及地址解析
,具体地说是一种基于最大概率融合的地址单元解析方法及装置。

技术介绍

[0002]地址单元解析可以从快递单、工单、发票等文本中提取出省、市、县、乡、村、道路、建筑、门牌号、方位、距离等各类地理位置要素,在物流、快递、电商、贸易等行业具有重要的应用价值。对句子“我们来到绍兴袍江工业区育贤路天一小区。”进行地址单元解析,结果是“City=绍兴”、“Devarea=袍江工业区”、“Road=育贤路”、“Poi=天一小区”;其中,City、Devarea、Road、Poi分别表示市级行政区、经济开发区、道路、兴趣点。
[0003]常用地址单元解析方法包括:关键词匹配法、词库匹配法、地址树匹配法、序列标注法、深度学习法等,以及彼此组合形成的方法,例如近年来广泛流行的“深度学习法+序列标注法”。每类方法结合数据结构和处理流程,得到多种实现方案,例如序列标注法包括HMM、CRF、Bi

LSTM等实现方案,不同实现方案的解析效果存在差异本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于最大概率融合的地址单元解析方法,其特征在于,该方法的实现方式如下:S1、生成地址单元的多个分值向量:采用多个已训练地址单元标注模型处理数据,获得每个地址单元的多个分值向量;S2、融合地址单元的分值向量并生成标注结果:基于分值最大化原则融合不同地址单元标注模型生成的分值向量,并生成地址单元的标注结果;S3、从标注结果中提取地址单元:根据地址单元标注结果,从待处理文本中提取地址单元实体及其类型。2.根据权利要求1所述的一种基于最大概率融合的地址单元解析方法,其特征在于,所述生成地址单元的多个分值向量,用M表示所用地址单元标注模型的个数,对于每条待处理文本的每个地址单元,都可以得到M个分值向量ScoreVec
i
,1<=i<=M,ScoreVec
i
是采用第i个地址单元标注模型的处理结果。3.根据权利要求2所述的一种基于最大概率融合的地址单元解析方法,其特征在于,所述M个分值向量,每个分值向量的长度均相同,其值等于地址类型个数N,分值向量的第j个分量sv
i,j
表示该地址单元隶属于第j种地址类型的概率,1<=j<=N。4.根据权利要求1或2或3所述的一种基于最大概率融合的地址单元解析方法,其特征在于,所述融合地址单元的分值向量并生成标注结果,用AddTagLstSet表示所有待处理文本对应的地址单元标注序列集合,用AddTagLst表示任意待处理文本Str对应的地址单元标注序列,用AddTag=AddItem/AddType表示Str中任意地址单元AddItem对应的标注结果,AddType是地址单元AddItem对应的地址类型,用M表示地址单元标注模型的个数,用N表示地址类型的个数,用AddTypeLst表示地址类型列表,第j种地址类型是AddTypeLst[j],对于每条待处理文本的每个地址单元,根据第i个地址单元标注模型得到的分值向量ScoreVec
i
=[sv
i,1
,sv
i,2
,...,sv
i,j
,...,sv
i,N
],1<=i<=M,1<=j<=N,用ScoreVec meg
表示融合后的分值向量,其长度为N,第j个分量表示为sv
meg,j
;则步骤S2具体包括:S21:初始化地址单元标注序列集合AddTagLstSet为空表;S22:读取第1条待处理文本Str;S23:初始化地址单元标注序列AddTagLst为空表;S24:读取Str中第1个地址单元AddItem;S25:读取AddItem的所有分值向量...

【专利技术属性】
技术研发人员:王功明赵志航魏金雷周庆勇潘心冰
申请(专利权)人:浪潮云信息技术股份公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1