一种地址切分模型的训练方法、设备及介质技术

技术编号:37851511 阅读:23 留言:0更新日期:2023-06-14 22:42
本发明专利技术公开了一种地址切分模型的训练方法、设备及介质,属于计算机软件开发技术领域,用于解决如下技术问题:由于训练数据集的影响,现有的地址切分模型的切分效果较差。方法包括:获取地址兴趣点以及行政区划数据集;根据行政区划数据集对所述地址兴趣点对应的地址信息进行填充,得到模拟地址数据;通过所述模拟地址数据对地址切分模型进行预训练;将所述模拟地址数据中的部分数据与自标注地址数据构建混合数据集,并利用所述混合数据集对预训练完成的所述地址切分模型进行调整。通过上述方法提升了地址切分模型对于地址数据的切分准确率,提高了模型鲁棒性,达到了较好的地址切分效果。址切分效果。址切分效果。

【技术实现步骤摘要】
一种地址切分模型的训练方法、设备及介质


[0001]本申请涉及计算机软件开发
,尤其涉及一种地址切分模型的训练方法、设备及介质。

技术介绍

[0002]地址切分是基层数据治理中一个工作量极大且及其繁琐的工作,人工切分地址十分耗费人力以及时间,因此,使用深度学习方法的地址切分模型应运而生。
[0003]数据集是模型训练的基础,然而目前没有标准的、带有标注地址的切分数据集,大样本的自标注数据集仍然十分耗费人力,而使用小样本的自标注数据集进行训练则很容易使地址切分模型陷入过拟合,导致模型的切分效果较差。

技术实现思路

[0004]本申请实施例提供了一种地址切分模型的训练方法、设备及介质,用于解决如下技术问题:由于训练数据集的影响,现有的地址切分模型的切分效果较差。
[0005]本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供了一种地址切分模型的训练方法,所述方法包括:获取地址兴趣点以及行政区划数据集;根据行政区划数据集对所述地址兴趣点对应的地址信息进行填充,得到模拟地址数据;通过所述本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种地址切分模型的训练方法,其特征在于,所述方法包括:获取地址兴趣点以及行政区划数据集;根据行政区划数据集对所述地址兴趣点对应的地址信息进行填充,得到模拟地址数据;通过所述模拟地址数据对地址切分模型进行预训练;将所述模拟地址数据中的部分数据与自标注地址数据构建混合数据集,并利用所述混合数据集对预训练完成的所述地址切分模型进行调整。2.根据权利要求1所述的一种地址切分模型的训练方法,其特征在于,获取地址兴趣点之后,所述方法还包括:获取所述地址兴趣点对应的行政区信息与道路信息;根据所述行政区信息构建兴趣点—社区街道数据表,以及根据所述道路信息构建兴趣点—道路数据表。3.根据权利要求2所述的一种地址切分模型的训练方法,其特征在于,所述方法还包括:根据所述兴趣点—社区街道数据表,查找所述行政区划数据集,对所述地址兴趣点的地址信息进行填充,以及,根据所述兴趣点—道路数据表,查找所述行政区划数据集,对所述地址兴趣点的地址信息进行填充。4.根据权利要求1所述的一种地址切分模型的训练方法,其特征在于,得到模拟地址数据之后,所述方法还包括:对所述模拟地址数据扩展楼号

单元号

户号数据。5.根据权利要求1所述的一种地址切分模型的训练方法,其特征在于,得到模拟地址数据之后,所述方法还包括:在所述模拟地址数据中随机删除预设类别的数据,所述类别至少包括:省、市、区、街道、社区、兴趣点、路名、路号、楼号、单元号以及户号。6.根据权利要求1所述...

【专利技术属性】
技术研发人员:傅玉鑫赵海兴孙永超孙长杰
申请(专利权)人:浪潮卓数大数据产业发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1