一种切割地址的方法、装置、设备及可读存储介质制造方法及图纸

技术编号:32180636 阅读:16 留言:0更新日期:2022-02-08 15:42
本发明专利技术公开了一种切割地址的方法、装置、设备及可读存储介质,该方法包括:获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;将所述地址文本中的地址要素和地址要素类型标签成对的进行展示;本发明专利技术能够使得切割地址更准确、高效。高效。高效。

【技术实现步骤摘要】
一种切割地址的方法、装置、设备及可读存储介质


[0001]本专利技术涉及语义解析
,特别涉及一种切割地址的方法、装置、设备及可读存储介质。

技术介绍

[0002]目前,地址切割技术在各个领域的应用越来越广泛,例如:收发快递、户籍地址管理或信件邮寄等都需要对地址信息进行切割处理,地址切割的不规范会给人们带来诸多不便。
[0003]由于中国的地址信息较为复杂,按照现有的方式需要利用地址切割模板人为的对地址文本进行地址切割,但切割的效果不够准确,只能切割达到地址切割模板规定的四类地址要素:省、市、区、县,对这四类地址要素后续的地址文本无法进一步切割;同时,在对地址信息进行切割的过程中地址切割模板也容易出现切割错误的情况,需要对切割结果进行人为修改,从而导致地址切割的效率下降。
[0004]因此,如何自动、准确、高效的对地址文本进行地址切割,成为了本领域技术人员亟需解决的技术问题。

技术实现思路

[0005]本专利技术的目的在于提供一种切割地址的方法、装置、设备及可读存储介质,解决了现有技术存在的技术问题,达到了更本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种切割地址的方法,其特征在于,所述方法包括:获取待处理的地址文本,并获取预训练好的地址切割模型;其中,所述地址切割模型包括:BERT算法层和CRF算法层;利用所述BERT算法层为所述地址文本中的每个字添加对应的标注;其中,所述标注用于表征地址文本中的字是否属于地址要素;利用所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率;当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,并分别为每个地址要素添加对应的地址要素类型标签;将所述地址文本中的地址要素和地址要素类型标签成对的进行展示,以完成对所述地址文本的地址切割操作。2.根据权利要求1所述的切割地址的方法,其特征在于,所述BERT算法层为所述地址文本中的每个字添加对应的标注,具体包括:利用所述BERT算法层计算出所述地址文本中每个字在各种预设的标注下的概率值;其中,所述预设的标注包括:地址头部标注、地址非头部标注和非地址标注;根据所述地址文本中目标字在各种预设的标注下的概率值,将最大概率值所对应的标注添加给所述目标字。3.根据权利要求1或2所述的切割地址的方法,其特征在于,所述CRF算法层根据所述地址文本中每个字所对应的标注计算出标注准确率,具体包括:从所述地址文本的第一个字开始,依次判断所述地址文本中每个字的标注是否满足预设的标注规则,并统计出满足所述标注规则的字数;将统计出的满足所述标注规则的字数与所述地址文本的总字数的比值作为所述标注准确率。4.根据权利要求2所述的切割地址的方法,其特征在于,所述当所述标注准确率大于预设阈值时,根据所述地址文本中每个字所对应的标注确定出所述地址文本中的地址要素,具体包括:根据所述地址文本中添加有地址头部标注的字和添加有地址非头部标注的字,确定出所述地址文本中的地址要素;其中,所述地址要素为所述地址文本中连续的N个字,且所述地址要素中第一个字添加有地址头部标注以及所述地址要素中除第一个字之外的其他字均添加有地址非头部标注。5.根据权利要求1或4所述的切割地址的方法,其特...

【专利技术属性】
技术研发人员:邹倩霞
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1