少样本地址数据集生成方法技术

技术编号:39844595 阅读:31 留言:0更新日期:2023-12-29 16:35
本发明专利技术公开了一种少样本地址数据集生成方法

【技术实现步骤摘要】
少样本地址数据集生成方法、地址匹配方法、介质及设备


[0001]本专利技术属于人工智能和自然语言处理领域,具体涉及一种少样本地址数据集生成方法

地址匹配方法

介质及设备


技术介绍

[0002]随着
AI
技术的发展,借助
AI
深度学习中对于自然语言的处理模式,基于命名实体识别的地址匹配方法逐渐取代了传统人工规则的地址匹配方法

训练建立一个
NLP
模型工具用于支持各类地址信息匹配,能有效提高整个地址匹配工作的工作效率,复用率

[0003]然而,为了确保模型拥有强大的泛化能力来识别各类查询地址,在训练命名实体识别的过程中需要花费大量人力和时间去标注不同格式的地址及其实体类别数据

在人为标注的过程中,又不可避免地错误标注实体类别并很难被检测发现,且某些具有歧义的地址在不同人的手中会出现不同的标注结果从而干扰模型的效果

另一方面,由于数据资源限制,不同格式的地址数据的数据本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种少样本地址数据集生成方法,用于自动生成与地址数据相同模板的地址训练样本,其特征在于,包括:
S11、
对已有地址数据集中的每条地址数据样本进行实体识别,并基于预先构建的所有地址层级的地址层级标签,将已有地址数据集中的每条地址数据样本中的实体用相应的地址层级标签替代,从而将每条地址数据样本映射为一个地址数据模板,再将所有映射形成的地址数据模板进行去重后形成模板集合;
S12、
将所有地址层级按照实体是否可被穷举分为两类,针对每一个不可穷举的地址层级,从已有地址数据集中提取属于这一层级的实体加入这一地址层级的实体集合中,针对每一个可穷举的地址层级,将用于组合形成这一地址层级实体文本的所有文本元素加入实体集合中;
S13、
从所述模板集合中抽取不同的地址数据模板,分别解析每个地址数据模板自身所含的地址层级标签后,从对应地址层级的实体集合中直接抽取实体或者组合文本元素来替代地址数据模板中的所有地址层级标签,形成新的地址数据样本,最终生成满足所需数据集规模的地址数据样本;
S14、
对生成的所有地址数据样本进行
BIO
标签标注,形成完整的地址训练数据集
。2.
如权利要求1所述的少样本地址数据集生成方法,其特征在于,所述地址层级标签共有
13
个层级,分别为城区

街道

社区

道路

路号



小区



单元





组号

其它
。3.
如权利要求2所述的少样本地址数据集生成方法,其特征在于,所述不可穷举的地址层级为城区

街道

社区

道路

小区

其它,所述可穷举的地址层级为路号





单元





组号
。4.
如权利要求1所述的少样本地址数据集生成方法,其特征在于,加入所述模板集合的地址数据模板需要进行筛选,保留下来的地址数据模板中的地址层级标签至少要含有小区,或者至少要含有道路和路号
。5.
一种基于命名实体识别模型的自学习地址匹配方法,用于对用户输入的待搜索地址进行在线实时匹配,其特征在于,包括:
S21、
基于权利要求
1~4
任一所述少样本地址数据集生成方法生成的地址训练数据集,利用有监督算法对命名实体识别模型进行微调训练;
S22、
利用微调训练后的命名实体识别模型对房屋地址数据库进行分层地址实体识别,若房屋地址数据库中的房屋地址文本存在下位地址层级但上位地址层级缺失的情况,则结合行政区划映射字典补全缺失的上位地址层级实体;将房屋地址数据库中每个房屋地址文本经过识别和补全后的房屋分层地址实体存储在第一数据库中;
S23、
利用微调训练后的命名实体识别模型对用户输入的待搜索地址进行分层地址实体识别,获取分层地址实体及相应的地址层级标签,若识别结果中存在下位地址层级但上位地址层级缺失的情况,则结合行政区划映射字典补全缺失...

【专利技术属性】
技术研发人员:叶建生周圣杰翁文礼谢运涛郑向东巫飞
申请(专利权)人:杭州中房信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1