System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 全球多语言多任务多模式地址解析中台系统及其解析方法技术方案_技高网

全球多语言多任务多模式地址解析中台系统及其解析方法技术方案

技术编号:40659778 阅读:4 留言:0更新日期:2024-03-18 18:52
本发明专利技术公开了一种全球多语言多任务多模式地址解析中台系统及其解析方法,包括数据资源库单元、微调训练模型构建单元、地址信息处理单元、多源数据融合单元,其中:所述数据资源库单元能够将基础数据转化成用于模型训练的地址信息;所述微调训练模型构建单元用于根据语种类型构建多种任务的微调训练模型对相应的语种地址信息进行微调训练;所述地址信息处理单元包括地址多级分类模块、序列标注模块、信息提取模块、语义纠错模块以及信息补全模块;所述多源数据融合单元包括时间特征数据融合模块、地址嵌入向量数据融合模块和地理经纬度数据融合模块,具有高效的地址解析性能和国际多语种通用性的特点。

【技术实现步骤摘要】

本专利技术属于物流数智化,特别涉及一种全球多语言多任务多模式地址解析中台系统及其解析方法


技术介绍

1、物流是促进贸易连通和经济合作的重要途径。物流业务蓬勃发展,一方面需要继续深入扎根国内物流市场扩大份额,另一方面海外市场规模升级开始面临系统瓶颈。而用户地址数据在收寄货环节、在配送网络优化环节,在预测和决策环节,都起着至关重要的作用。用户地址数据如此重要,需要对它有全方位综合的解析能力,来支撑上述多种多样的功能需求。虽然国内的头部物流公司已拥有较高水平的中文地址解析能力,但全球多语种+多任务+多模式的智能解析系统还未有先例。

2、基于此,亟需拥有一套全球多语言多任务多模式地址解析中台系统,以支撑中国和海外市场的单量拓展和物流网络健康发展。


技术实现思路

1、专利技术目的:为了克服现有技术中存在的不足,本专利技术提供一种全球多语言多任务多模式地址解析中台系统及其解析方法,能够实现多语种多任务多模式的地址解析,具有高效和通用性的特点。

2、技术方案:为实现上述目的,本专利技术的技术方案如下:

3、全球多语言多任务多模式地址解析中台系统,包括数据资源库单元、微调训练模型构建单元、地址信息处理单元、多源数据融合单元,其中:

4、所述数据资源库单元能够将基础数据转化成用于模型训练的地址信息;

5、所述微调训练模型构建单元用于根据语种类型构建训练任务模型对相应的语种地址信息进行预训练;

6、所述地址信息处理单元包括地址多级分类模块、序列标注模块、信息提取模块、语义纠错模块以及信息补全模块;

7、所述多源数据融合单元包括时间特征数据融合模块、地址嵌入向量数据融合模块和地理经纬度数据融合模块。

8、进一步地,所述微调预训练模型构建单元包括地址关系模块、语义实体识别模块、距离矩阵模块、地理语义掩码模块和地址嵌入模块,其中:

9、所示地址关系模块训练地址信息的行政区域划分归属关系逻辑,构建地理位置实体与地址关系向量表示的地理信息;

10、所示语义实体识别模块用于将单个token转换成连续的实体,训练模型的语义信息;

11、所述距离矩阵模块学习地理信息和语义信息的数据分布;

12、所述地理语义掩码模块将目标poi附近的多个poi当作语义掩码任务中的token,训练模型的语义信息;

13、所述地址嵌入模块根据行政区域划分归属关系嵌入和补全地理信息。

14、进一步地,一种全球多语言多任务多模式地址解析方法,包括:

15、利用数据资源库将基础数据转化成用于模型训练的地址信息;

16、根据语种类型构建训练任务模型对相应的语种地址信息进行预训练;

17、基于预训练模型的微调训练过程中依次对地址信息进行地址多级分类、对分类后的各级地址信息进行序列标注、对序列标注进行信息提取、对提取的信息进行语义纠错,以及对纠错后的地址信息进行信息补全;

18、将时间特征数据、地址嵌入向量数据和地理经纬度数据融合到地址信息的模型训练策略中。

19、进一步地,融合所述时间特征数据的步骤包括:

20、在静态地址文本里,把绝对时间作为一个时间文本加入到地址信息的前缀位置上,形成了包含有动态时间信息的动态地址;

21、根据动态地址的时间轴顺序,判断网点是否产生合并或分立的变动;

22、在用户请求地址中的地址信息的前缀位置上也加入时间文本,并根据时间轴顺序寻找最近日期的动态地址作为结果输出。

23、进一步地,融合所述地址嵌入向量数据的步骤包括:

24、在基于预训练的微调模型将地址文本转化为高维embedding用于分类的同时,利用残差网络同步输出地址文本转化的低维embedding向量,作为一个新增的特征信息,输入到下一个图模型中。

25、进一步地,微调训练模型为基于bert预训练模型的训练模型,所述图模型为hnsw模型。

26、进一步地,:融合所述地理经纬度数据的步骤包括:

27、当地址信息的地理经纬度落在了它曾经签收的网点围栏经纬度范围内时记为有效地址信息;

28、将所述有效地址信息附加到模型中每个地址信息的文本上;

29、在地址推理时,用请求地址到hnsw网络中找到最相近的一条地址后,再根据寻找到的地址的地理经纬度进行对网点围栏的判断,找到最终的派件网点。

30、进一步地,模型预训练过程中包含以下特征至少之一:

31、(1)基于地址多级分类模型对地址多级分类,包括:基于bert预训练模型的分类任务,将收件地址的派件网点、派件区域和签收驿站构建成一个多级分类模型,用于完成面单三段码和驿站码的生成;

32、(2)基于序列标注和信息提取模型对地址信息中的文本进行序列标注和信息提取,包括:基于bert预训练模型的ner任务,识别收件地址中每个字的属性和下标位置,进而获取地址中的各级行政区划信息;

33、(3)基于语义纠错和信息补全模型对提取的信息进行语义纠错和信息补全,包括:基于bert预训练模型的分类任务和global pointer标注方式,判断收件地址对应的正确的四级行政区划,并将地址中错误的、缺失的四级行政区划替换成正确的,构建成一套标准地址库。

34、进一步地,还包括构建地址图谱模型:将运单地址数据进行poi提取和四级行政区划分类,然后构建地址类知识图谱,同时把地址街道的geohash网格信息和空间上属于同街道的poi实体加入图谱,增加了描述空间远近的信息,弥补模型侧只有对文本语义理解的知识空缺。

35、进一步地,构建多语种分类模型的策略包括以下特征至少之一:

36、(1)大地址前置:对于海外地址,把收件地址中的大地址前置移动到地址文本的前侧,作为训练数据输入;

37、(2)时间权重来调整训练数据分布:在训练数据中,靠近于当前日期的地址和网点映射关系的权重增加;

38、(3)特殊字符替换:对错误音标/音符进行替换,更正为正确音标;

39、(4)数据增强:对于省市区准确率较高的地址数据进行数据增强,随机剔除市和区的内容,增加模型训练的难度和丰富性;

40、(5)训练数据回灌:针对临时混派的网点开启训练数据回灌,避开临时混派期间的错误标签对训练效果的影响。

41、有益效果:本专利技术在数据资源层和算法模型层之间增加了一个预训练模型层,用于不同模式、不同语种的地址信息进行深度学习训练,从而能够更加准确的处理海内外的各种地址数据,并且通过多源数据融合单元以及其融合方法,能够提升中台服务的准确性和稳定率。

本文档来自技高网...

【技术保护点】

1.全球多语言多任务多模式地址解析中台系统,其特征在于:包括数据资源库单元、微调训练模型构建单元、地址信息处理单元、多源数据融合单元,其中:

2.根据权利要求1所述的全球多语言多任务多模式地址解析中台系统,其特征在于:所述预训练模型构建单元包括地址关系模块、语义实体识别模块、距离矩阵模块、地理语义掩码模块和地址嵌入模块,其中:

3.一种全球多语言多任务多模式地址解析方法,其特征在于,包括:

4.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:融合所述时间特征数据的步骤包括:

5.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:融合所述地址嵌入向量数据的步骤包括:

6.根据权利要求5所述的全球多语言多任务多模式地址解析方法,其特征在于:所述微调训练模型为基于Bert预训练模型的训练模型,所述图模型为HNSW模型。

7.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:融合所述地理经纬度数据的步骤包括:

8.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:模型微调训练的过程中包含以下特征至少之一:

9.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:还包括构建地址图谱模型:将运单地址数据进行POI提取和四级行政区划分类,然后构建地址类知识图谱,同时把地址街道的GeoHash网格信息和空间上属于同街道的POI实体加入图谱,增加了描述空间远近的信息,弥补模型侧只有对文本语义理解的知识空缺。

10.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:构建多语种分类模型的策略包括以下特征至少之一:

...

【技术特征摘要】

1.全球多语言多任务多模式地址解析中台系统,其特征在于:包括数据资源库单元、微调训练模型构建单元、地址信息处理单元、多源数据融合单元,其中:

2.根据权利要求1所述的全球多语言多任务多模式地址解析中台系统,其特征在于:所述预训练模型构建单元包括地址关系模块、语义实体识别模块、距离矩阵模块、地理语义掩码模块和地址嵌入模块,其中:

3.一种全球多语言多任务多模式地址解析方法,其特征在于,包括:

4.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:融合所述时间特征数据的步骤包括:

5.根据权利要求3所述的全球多语言多任务多模式地址解析方法,其特征在于:融合所述地址嵌入向量数据的步骤包括:

6.根据权利要求5所述的全球多语言多任务多模式地址解析方法,其特征在于:所述微调训练模型为基于...

【专利技术属性】
技术研发人员:姜东晓
申请(专利权)人:上海捷晓信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1