System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态地理文本预训练的中文地址解析方法及系统技术方案_技高网

基于多模态地理文本预训练的中文地址解析方法及系统技术方案

技术编号:41087515 阅读:26 留言:0更新日期:2024-04-25 13:49
本发明专利技术公开了一种基于多模态地理文本预训练的中文地址解析方法及系统,属于地址解析技术领域。包括获取待解析文本;将待解析文本输入训练好的中文地址解析模型进行处理,获取中文地址解析结果;训练中文地址解析模型包括:将预训练数据集输入中文地址解析模型进行注意力对抗预训练;对预训练数据集中的地理文本句子对进行掩码处理,将地理文本句子对输入中文地址解析模型进行句子对预训练;获取多模态预训练数据,将多模态预训练数据输入中文地址解析模型进行多模态预训练;根据训练结果,更新中文地址解析模型的权重参数。能够提高中文地址解析的准确性,解决了现有地址解析结果不准确,处理复杂地址能力有限的问题。

【技术实现步骤摘要】

本专利技术涉及地址解析,特别是涉及一种基于多模态地理文本预训练的中文地址解析方法及系统


技术介绍

1、本部分的陈述仅仅是提到了与本专利技术相关的
技术介绍
,并不必然构成现有技术。

2、中文地址不同于英文,英文单词有明显的切分依据,采用具有独立语义的单词来描述,利用空格和标点符号分割,地址要素类型也较容易确定。而中文地址命名缺乏规范,加之中文语言的特点,使得汉语地址解析包含了地址分割和地址要素类型确定两项工作。

3、分割将地址拆分为具有独立地址语义的地址要素,地址要素类型确定是分析各地址要素的含义,如地址“某市某区某镇某路27号”分割后为“某市/某区/某镇/某路/27号”;类型标注后为“某市[city]某区[district]某镇[town]某区[district]某路[road]27号[road_number]”。

4、中文地址解析与中文自然语言处理有很大相似性,研究方法经历了从基于规则(词典)到基于统计的方法的发展历程。但现有技术中的中文地址解析方法仍存在如下问题:

5、(1)解析准确性:中文地址存在较大的语义和表达多样性,不同的人可能使用不同的表达方式来描述同一个地址。因此,地址解析技术在处理这种多样性时可能会存在一定的误差,导致解析结果不够准确。

6、(2)处理复杂地址的能力有限:对于一些复杂的地址情况,如含有楼号、单元号、房间号等详细信息的地址,解析技术可能难以准确识别和提取关键信息,造成解析结果的不完整或错误。

7、(3)地名重复现象:中国地域广阔,许多地名存在重名现象,例如多个城市、乡镇或街道拥有相同的名称。这种地名重复现象给地址解析带来了挑战,容易导致解析结果的模糊性或混淆。

8、(4)对特殊地址的解析困难:部分地址具有特殊的表达方式或者标识符号,其特殊性可能使得解析技术难以正确解析。


技术实现思路

1、为了解决现有技术的不足,本专利技术提供了一种基于多模态地理文本预训练的中文地址解析方法、系统、电子设备及计算机可读存储介质,在空间关系地址模型地址标注体系下,进行了地址标注的多任务多模态地址训练,提高模型的中文地址解析精度。

2、第一方面,本专利技术提供了一种基于多模态地理文本预训练的中文地址解析方法;

3、一种基于多模态地理文本预训练的中文地址解析方法,包括:

4、获取待解析文本;

5、将待解析文本输入训练好的中文地址解析模型进行处理,获取中文地址解析结果;

6、其中,训练所述中文地址解析模型包括:

7、构建预训练数据集,将预训练数据集输入中文地址解析模型进行注意力对抗预训练;

8、筛选预训练数据集中的地理文本句子对,对地理文本句子对进行掩码处理,将掩码处理后的地理文本句子对输入中文地址解析模型进行句子对预训练;

9、获取多模态预训练数据,将多模态预训练数据输入中文地址解析模型进行多模态预训练;

10、根据训练结果,更新中文地址解析模型的权重参数。

11、进一步的,训练所述中文地址解析模型时,通过多任务采样器生成每一步的预训练任务,并根据预训练评估结果更新多任务采样器。

12、进一步的,所述对地理文本句子对进行掩码处理包括:

13、将相关的地理文本句子对通过特殊字符拼接在一起,并基于掩码策略将地理文本句子对中的字符随机替换。

14、进一步的,所述预训练数据集输入中文地址解析模型进行注意力对抗预训练具体包括:

15、对预训练数据中的字符进行随机替换后输入中文地址解析模型,预测被替换的字符;

16、其中,预训练时,根据预训练数据的自注意力矩阵,对自注意力矩阵进行攻击。

17、进一步的,在进行句子对预训练时,根据地理区划的空间拓扑关系,增加子任务约束。

18、进一步的,通过获取预训练位置信息并输入地图中进行查询,获取与位置信息相关的区域信息,使用地理信息编码器进行编码后与相关地理文本拼接形成多模态预训练数据。

19、进一步的,训练所述中文地址解析模型之前,通过地址标注体系对预训练数据集进行标注,其中,所述地址标注体系基于空间关系模型构建。

20、第二方面,本专利技术提供了一种基于多模态地理文本预训练的中文地址解析系统;

21、一种基于多模态地理文本预训练的中文地址解析系统,包括:

22、获取模块,被配置为:获取待解析文本;

23、中文地址解析模块,被配置为:将待解析文本输入训练好的中文地址解析模型进行处理,获取中文地址解析结果;

24、其中,训练所述中文地址解析模型包括:

25、构建预训练数据集,将预训练数据集输入中文地址解析模型进行注意力对抗预训练;

26、筛选预训练数据集中的地理文本句子对,对地理文本句子对进行掩码处理,以损失函数最小化为目标,将掩码处理后的地理文本句子对输入中文地址解析模型进行句子对预训练;

27、获取多模态预训练数据,将多模态预训练数据输入中文地址解析模型进行多模态预训练;

28、根据训练结果,更新中文地址解析模型的权重参数。

29、第三方面,本专利技术提供了一种电子设备;

30、一种电子设备,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成上述基于多模态地理文本预训练的中文地址解析方法的步骤。

31、第四方面,本专利技术提供了一种计算机可读存储介质;

32、一种计算机可读存储介质,用于存储计算机指令,所述计算机指令被处理器执行时,完成上述基于多模态地理文本预训练的中文地址解析方法的步骤。

33、与现有技术相比,本专利技术的有益效果是:

34、1、本专利技术提供的技术方案,使用多任务预训练技术,融合了注意力对抗预训练、句子对预训练和多模态预训练,从而得到适合多类地理文本任务的中文地址解析模型,提高中文地址解析的准确性。

35、2、本专利技术提供的技术方案,通过注意力对抗预训练强迫模型摆脱对于局部信息的过分关注,通过句子对预训练能够增强模型对句子对之间相关性的捕获,且考虑了地理区划的空间拓扑关系,通过多模态预训练融合了文本地理多模态信息;提高中文地址解析时处理复杂地址的能力。

本文档来自技高网...

【技术保护点】

1.基于多模态地理文本预训练的中文地址解析方法,其特征在于,包括:

2.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,训练所述中文地址解析模型时,通过多任务采样器生成每一步的预训练任务,并根据预训练评估结果更新多任务采样器。

3.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,所述对地理文本句子对进行掩码处理包括:

4.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,所述预训练数据集输入中文地址解析模型进行注意力对抗预训练具体包括:

5.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,在进行句子对预训练时,根据地理区划的空间拓扑关系,增加子任务约束。

6.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,通过获取预训练位置信息并输入地图中进行查询,获取与位置信息相关的区域信息,使用地理信息编码器进行编码后与相关地理文本拼接形成多模态预训练数据。

7.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,训练所述中文地址解析模型之前,通过地址标注体系对预训练数据集进行标注,其中,所述地址标注体系基于空间关系模型构建。

8.基于多模态地理文本预训练的中文地址解析系统,其特征在于,包括:

9.一种电子设备,其特征在于,包括存储器和处理器以及存储在存储器上并在处理器上运行的计算机指令,所述计算机指令被处理器运行时,完成权利要求1-7任一项所述基于多模态地理文本预训练的中文地址解析方法的步骤。

10.一种计算机可读存储介质,其特征在于,用于存储计算机指令,所述计算机指令被处理器执行时,完成权利要求1-7任一项所述基于多模态地理文本预训练的中文地址解析方法的步骤。

...

【技术特征摘要】

1.基于多模态地理文本预训练的中文地址解析方法,其特征在于,包括:

2.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,训练所述中文地址解析模型时,通过多任务采样器生成每一步的预训练任务,并根据预训练评估结果更新多任务采样器。

3.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,所述对地理文本句子对进行掩码处理包括:

4.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,所述预训练数据集输入中文地址解析模型进行注意力对抗预训练具体包括:

5.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,在进行句子对预训练时,根据地理区划的空间拓扑关系,增加子任务约束。

6.如权利要求1所述的基于多模态地理文本预训练的中文地址解析方法,其特征在于,通过获取预训练...

【专利技术属性】
技术研发人员:王晓东李凡平王堃
申请(专利权)人:以萨技术股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1