【技术实现步骤摘要】
一种地址切分模型的训练方法、设备及介质
[0001]本申请涉及计算机软件开发
,尤其涉及一种地址切分模型的训练方法、设备及介质。
技术介绍
[0002]地址切分是基层数据治理中一个工作量极大且及其繁琐的工作,人工切分地址十分耗费人力以及时间,因此,使用深度学习方法的地址切分模型应运而生。
[0003]数据集是模型训练的基础,然而目前没有标准的、带有标注地址的切分数据集,大样本的自标注数据集仍然十分耗费人力,而使用小样本的自标注数据集进行训练则很容易使地址切分模型陷入过拟合,导致模型的切分效果较差。
技术实现思路
[0004]本申请实施例提供了一种地址切分模型的训练方法、设备及介质,用于解决如下技术问题:由于训练数据集的影响,现有的地址切分模型的切分效果较差。
[0005]本申请实施例采用下述技术方案:
[0006]第一方面,本申请实施例提供了一种地址切分模型的训练方法,所述方法包括:获取地址兴趣点以及行政区划数据集;根据行政区划数据集对所述地址兴趣点对应的地址信息进行填充,得到模 ...
【技术保护点】
【技术特征摘要】
1.一种地址切分模型的训练方法,其特征在于,所述方法包括:获取地址兴趣点以及行政区划数据集;根据行政区划数据集对所述地址兴趣点对应的地址信息进行填充,得到模拟地址数据;通过所述模拟地址数据对地址切分模型进行预训练;将所述模拟地址数据中的部分数据与自标注地址数据构建混合数据集,并利用所述混合数据集对预训练完成的所述地址切分模型进行调整。2.根据权利要求1所述的一种地址切分模型的训练方法,其特征在于,获取地址兴趣点之后,所述方法还包括:获取所述地址兴趣点对应的行政区信息与道路信息;根据所述行政区信息构建兴趣点—社区街道数据表,以及根据所述道路信息构建兴趣点—道路数据表。3.根据权利要求2所述的一种地址切分模型的训练方法,其特征在于,所述方法还包括:根据所述兴趣点—社区街道数据表,查找所述行政区划数据集,对所述地址兴趣点的地址信息进行填充,以及,根据所述兴趣点—道路数据表,查找所述行政区划数据集,对所述地址兴趣点的地址信息进行填充。4.根据权利要求1所述的一种地址切分模型的训练方法,其特征在于,得到模拟地址数据之后,所述方法还包括:对所述模拟地址数据扩展楼号
‑
单元号
‑
户号数据。5.根据权利要求1所述的一种地址切分模型的训练方法,其特征在于,得到模拟地址数据之后,所述方法还包括:在所述模拟地址数据中随机删除预设类别的数据,所述类别至少包括:省、市、区、街道、社区、兴趣点、路名、路号、楼号、单元号以及户号。6.根据权利要求1所述...
【专利技术属性】
技术研发人员:傅玉鑫,赵海兴,孙永超,孙长杰,
申请(专利权)人:浪潮卓数大数据产业发展有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。