一种基于融合模型的中文地址识别方法技术

技术编号:39167615 阅读:8 留言:0更新日期:2023-10-23 15:05
本发明专利技术公开了一种基于融合模型的中文地址识别方法,首先收集包括中文地址的非结构化文本数据,并进行预处理,形成数据集,之后构建多个识别模型,并数据集进行训练,基于训练后的识别模型分别对输入的文本数据进行中文地址识别;随后构建文本评分体系,并基于文本评分对多个模型的输出结果进行评估,最后基于评估结果对识别结果进行融合,得到最终的中文地址识别结果。本发明专利技术通过机器学习和深度学习,构建多个优化的模型,以应对中文地址的复杂性和多样性,这些模型能够处理地址中常见的标记噪声,例如标点符号、省略词和错误的分词,从而提高识别的准确性,且能够有效处理长文本地址,提高识别的效率和速度。提高识别的效率和速度。提高识别的效率和速度。

【技术实现步骤摘要】
一种基于融合模型的中文地址识别方法


[0001]本专利技术属于中文地址识别领域,具体涉及一种基于融合模型的中文地址识别方法。

技术介绍

[0002]中文地址识别是从大量非结构化文本中提取出包含完整地址信息的文本片段的过程。这项技术在快递、电商行业等领域广泛应用,因为这些行业中客户在线提交的地址单据通常是非结构化的,需要进行识别以获取准确的位置信息。然而,中文地址的复杂性和多样性给地址识别带来了巨大的挑战。
[0003]传统的规则和规则方法在处理中文地址识别时往往无法处理所有情况,而且需要大量的人工干预和调整。中文地址实体识别研究中存在以下问题:(1)地名歧义问题。地名歧义是指一个地名可能有多种含义或解释,造成对地名含义的不确定或模糊。例如,迪士尼乐园可以指上海的迪士尼乐园,也可以指中国香港地区的迪士尼乐园。在自然语言处理中,地名歧义经常会导致语义理解的错误或混淆。
[0004](2)地名嵌套问题。地名嵌套是指在地名中包含另一个地名的情况。在某些情况下,地名嵌套可能导致歧义,因此在自然语言处理中,需要对地名嵌套进行识别和处理。例如,在“苏州市虎丘区学府路苏州科技大学石湖校区”中,虎丘区是苏州市的一个行政区划,学府路是虎丘区的一条街道,而苏州科技大学石湖校区则是学府路上的一个 POI 地名实体。这个地名包含了多个地名,其中虎丘区嵌套在了苏州市中,学府路则嵌套在虎丘区中。
[0005](3)未登录地名问题。未登录地名指的是在地名识别过程中,没有出现在预定义地名词典中,无法被识别的新地名。未登录地名的出现可能有多种原因,包括地名发生变化、地名使用场景的变化、新地名的出现等。例如,近年来高新科技园区和商业中心的兴起,这些地方的名字可能没有被纳入到地名词典中,因此在命名实体识别过程中可能无法被正确识别。
[0006](4)语境依赖问题。地名的含义通常是依赖于上下文语境的,例如在“我想去巴黎”和“我想去巴黎贝甜买点蛋糕”中,前者“巴黎”指的是法国巴黎城市,后者“巴黎”指的是一家蛋糕店铺,但是这个差异需要在上下文中才能确定。
[0007]近年来,基于机器学习和深度学习的方法在中文地址识别领域受到了广泛关注。这些方法利用大量的数据进行训练,并通过学习特征和上下文信息来自动识别地址。然而,现有的单一模型往往存在一些局限性。例如,传统的基于序列标注的模型,如BiLSTM+CRF,虽然在一些场景中表现良好,但在解决标记噪声问题方面效果不佳。中文地址中常常存在标点符号、省略词和错误的分词等噪声,这给地址识别带来了困难。另外,Bert+BiLSTM+CRF模型虽然可以有效地处理上下文信息,但在处理长文本时效率较低。由于中文地址往往是较长的文本片段,使用该模型可能会导致计算速度变慢。

技术实现思路

[0008]针对上述问题,本专利技术的目的在于提供一种基于融合模型的中文地址识别方法,通过融合多个模型,提升中文地址识别的准确性和效率,以满足快递、电商、运营商等行业对精确位置信息的需求,旨在解决传统规则和单一模型在处理中文地址时的局限性,从而降低人工干预和调整的需求。
[0009]实现本专利技术目的的具体技术方案为:一种基于融合模型的中文地址识别方法,包括以下步骤:步骤1、收集包括中文地址的非结构化文本数据,并进行预处理,形成数据集;步骤2、构建多个识别模型,并基于步骤1的数据集进行训练;步骤3、基于训练后的识别模型分别对输入的文本数据进行中文地址识别;步骤4、构建文本评分体系,并基于文本评分对多个模型的输出结果进行评估;步骤5、基于评估结果对识别结果进行融合,得到最终的中文地址识别结果。
[0010]与现有技术相比,本专利技术的有益效果在于:(1)本专利技术通过机器学习和深度学习,构建多个优化的模型,以应对中文地址的复杂性和多样性,这些模型能够处理地址中常见的标记噪声,例如标点符号、省略词和错误的分词,从而提高识别的准确性。同时,通过特定模型的设计,本专利技术还能够有效处理长文本地址,提高识别的效率和速度;(2)本专利技术方案将多个模型融合为一个整体,通过投票机制或加权融合的方式,综合各个模型的输出结果,得到最终的中文地址识别结果,能够充分利用不同模型的优势,提高整体的识别性能和鲁棒性。
[0011]下面结合附图和具体实施方式对本专利技术做进一步的说明。
附图说明
[0012]图1为本专利技术的基于融合模型的中文地址识别方法步骤流程示意图。
[0013]图2为本专利技术的识别模型的训练示意图。
[0014]图3为本专利技术的实施例中的文本评分示意图。
具体实施方式
[0015]一种基于融合模型的中文地址识别方法,包括以下步骤:步骤1、收集包括中文地址的非结构化文本数据,并进行预处理,形成数据集:步骤1

1、收集内容包含中文地址的非结构化文本数据,数据涵盖不同行业和场景;步骤1

2、对文本数据进行预处理,包括去除噪声、标点符号处理、分词;步骤1

3、对预处理后的数据进行标注和标准化,包括省份、城市、区县、街道、门牌号信息。
[0016]步骤2、构建多个识别模型,并基于步骤1的数据集进行训练:步骤2

1、构建多个文本识别模型,包括但不限于BiLSTM模型、BiLSTM+CRF模型、BERT模型、BERT+CRF模型、BERT+BiLSTM+CRF模型;步骤2

2、结合图2,基于步骤1预处理后的文本数据对步骤2

1中的各个模型进行
训练,对模型参数进行调优,以提高模型的准确性和鲁棒性步骤3、基于训练后的识别模型分别对输入的文本数据进行中文地址识别;步骤4、构建文本评分体系,并基于文本评分对多个模型的输出结果进行评估:构建文本评分体系根据,各个模型的输出结果进行打分和排名,以确定各个模型输出结果的可信度;所述文本评分体系基于文本的多个维度进行评分。
[0017]所述文本评分体系可以为:(1)基于文本长度进行评分,针对小于等于10个字符短文本评分为1,针对11到50个字符的中等长度文本评分为2,针对大于50个字符长文本评分为3;(2)基于词频进行评分,针对出现次数少于5次的低频词评分为1,针对出现次数在5到10次之间的中等频率词评分为2,针对出现次数大于等于10次的高频词评分为3;(3)基于词嵌套关系进行评分,针对无嵌套关系的评分为1,针对低层级嵌套关系(例如:省份、城市、区县)的评分为2,针对高层级嵌套关系(例如:街道、门牌号)的评分为3。
[0018]根据该种文本评分体系,可以根据文本的特点生成一个完整的评分。例如,对于短文本,可以选择短文本处理效果比较好的Bert+BiLSTM+CRF模型,以提高其输出结果的重要度。相反,对于长地址文本,可以降低Bert+BiLSTM+CRF模型输出结果在投票中的比重。
[0019]所述文本评分体系还可以为:将各个识别模型的识别输出结果与中文地址数据库中的数据进行比对,基于字符串长度、字符匹配率、词组匹配、词组本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于融合模型的中文地址识别方法,其特征在于,包括以下步骤:步骤1、收集包括中文地址的非结构化文本数据,并进行预处理,形成数据集;步骤2、构建多个识别模型,并基于步骤1的数据集进行训练;步骤3、基于训练后的识别模型分别对输入的文本数据进行中文地址识别;步骤4、构建文本评分体系,并基于文本评分对多个模型的输出结果进行评估;步骤5、基于评估结果对识别结果进行融合,得到最终的中文地址识别结果。2.根据权利要求1所述的基于融合模型的中文地址识别方法,其特征在于,所述步骤1中的数据采集及预处理,具体为:步骤1

1、收集内容包含中文地址的非结构化文本数据,数据涵盖不同行业和场景;步骤1

2、对文本数据进行预处理,包括去除噪声、标点符号处理、分词;步骤1

3、对预处理后的数据进行标注和标准化,包括省份、城市、区县、街道、门牌号信息。3.根据权利要求1所述的基于融合模型的中文地址识别方法,其特征在于,所述步骤2中的构建多个识别模型并进行训练,具体为:步骤2

1、构建多个文本识别模型,包括但不限于BiLSTM模型、BiLSTM+CRF模型、BERT模型、BERT+CRF模型、BERT+BiLSTM+CRF模型;步骤2

2、基于步骤1预处理后的文本数据对步骤2

1中的各个模型进行训练,对模型参数进行调优。4.根据权利要求1所述的基于融合模型的中文地址识别方法,其特征在于,所述步骤4中的构建文本评分体系对模型识别结果...

【专利技术属性】
技术研发人员:席娟辉傅瑞明
申请(专利权)人:中博信息技术研究院有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1