一种基于英文地址的城市、行政区划、国家识别的提取方法技术

技术编号:38998069 阅读:5 留言:0更新日期:2023-10-07 10:29
本发明专利技术涉及自然语言处理技术领域,具体公开了一种基于英文地址的城市、行政区划、国家识别的提取方法,该方法是将英文地址文本数据输入后,使用预训练BERT模型融合LSTM先进行机构、地址的二分类,再对地址数据进行数据预处理,处理后的地址数据进行数据解析,最后再根据解析结果匹配,匹配完成后按层级输出匹配结果,通过使用预处理与通过规则匹配区域层级字典与规范文档的方法,解决了基于规则匹配时无法对层级乱序、存在噪声的科研文献英文地址文本数据的城市、行政区划、国家文本做到精确提取的问题;并且也解决了使用机器学习模型需要人工构建训练数据集成本较高的问题。人工构建训练数据集成本较高的问题。人工构建训练数据集成本较高的问题。

【技术实现步骤摘要】
一种基于英文地址的城市、行政区划、国家识别的提取方法


[0001]本专利技术涉及自然语言处理
,具体为一种基于英文地址的城市、行政区划、国家识别的提取方法。

技术介绍

[0002]随着科学技术的发展,各领域的科研文献发表量与日俱增,加之往日积累的各行各业、各领域学科的科研文献,对科研文献分类管理与分析的难度也愈发艰难。随着信息技术的发展,现如今越来越多的科研机构希望可以使用计算机自动分类管理与分析各类科研文献。通过科研文献中机构(或机构简称)、城市、行政区划、邮编、国家等层级信息组成的英文地址文本中准确识别和提取其中的城市、行政区划、国家文本,可以辅助对科研文献按城市、行政区划、国家进行分类分析与管理,也可以辅助规范科研文献所属机构信息。
[0003]现有的地址信息提取技术主要有两种:其一是基于规则匹配的方法,这种方法通过总结地址层级分布规则,使用规则与地址文本进行匹配,提取出相应信息;其二是基于机器学习模型,基于大量人工标注好的地址文本数据对机器学习模型进行训练,将需提取信息的地址文本数据输入训练好的机器学习模型,通过机器学习模型提取相应信息。
[0004]针对上述两种地址信息提取技术仍分别存在以下缺陷:
[0005]1、基于规则匹配的方法过度依赖于预设的信息提取规则,一旦地址文本数据层级顺序变更,或地址文本数据中存在过多干扰项(夹杂机构、邮编、邮箱、特殊符号等信息)时,基于规则匹配的方法对科研文献英文地址文本数据无法做到精确提取;
[0006]2、基于机器学习模型的方法需要大量已标注的科研文献英文地址文本数据对模型进行训练,这些已标注的科研文献英文地址文本数据需要从大量科研文献中提取,并进行人工标注,人工建立训练数据集所需时间长、成本高。
[0007]因此我们需要提出一种基于英文地址的城市、行政区划、国家识别的提取方法来解决上述存在的问题。

技术实现思路

[0008]本专利技术的目的在于提供一种基于英文地址的城市、行政区划、国家识别的提取方法,使用预训练BERT模型融合LSTM与通过规则匹配区域层级字典与规范文档的方法,解决了基于规则匹配时无法对层级乱序、存在噪声的科研文献英文地址文本数据的城市、行政区划、国家文本做到精确提取的问题,以解决
技术介绍
中提出的问题。
[0009]为实现上述目的,本专利技术提供如下技术方案:一种基于英文地址的城市、行政区划、国家识别的提取方法,包括如下步骤:
[0010]S1、将英文地址文本输入后通过机构地址二分类模块使用预训练BERT模型融合LSTM将输入数据分割为机构数据和地址数据的二类数据;
[0011]S2、对英文地址文本输入数据进行清理和排序的数据预处理;
[0012]S3、对数据预处理后的地址分割数据进行数据解析,判断是否存在城市、行政区划
和国家相应信息;
[0013]S4、根据数据解析结果进行数据匹配,匹配城市、行政区划和国家相应规范文档,最后按层级输出匹配的城市、行政区划、国家规范信息。
[0014]优选的,所述机构地址二分类模块接收原始地址字符串作为输入,将原始地址字符串通过地址分隔符分割,遍历分割结果,判断当前遍历元素是否为国家或城市,是则跳过;不是则调用模型判断当前元素是否为机构,是则记录,不是则跳过,最终,通过记录的机构信息将地址信息切分出,并返回机构与地址信息。
[0015]优选的,所述机构地址二分类模块在进行分割时,具体包括如下步骤:
[0016]A1、输入原始地址信息;
[0017]A2、分割原始地址;
[0018]A3、遍历分割地址,并确认遍历是否结束,存在以下两种情形:
[0019]A31、当遍历结束时,根据机构信息将原始地址分割为机构、地址数据,然后再输出机构、地址信息;
[0020]A32、当遍历未结束时,确认当前元素是否为国家或城市,匹配国家、城市规范文档,会存在以下两种情形:
[0021]A321、若当前元素为国家或城市,则返回A2;
[0022]A322、若当前元素不是国家或城市,再模型调用,再确认当前元素是否为机构,存在以下两种情况:
[0023]A3221、若当前元素不是机构,则返回A2;
[0024]A3222、若当前元素是机构,则记录机构信息。
[0025]优选的,步骤S2中,对所述地址数据进行数据预处理时,由于输入数据存在噪声,噪声指的是对提取无效,会干扰提取结果的数据,故在数据解析前先对数据进行清洗、排序,即将输入的地址信息两端无用信息去除,清理非地址信息的噪声数据,并用地址分割符将地址分割成多块,并对分割结果进行倒序排序。
[0026]优选的,数据预处理的流程如下:
[0027]B1地址数据输入后,确认地址数据是否为空,会存在以下两种情况:
[0028]B11、当输入地址数据为空时,则重新进行地址数据输入,进行B1;
[0029]B12、若地址数据不为空时,对地址数据清理,进行B2;
[0030]B2、分割地址信息,并确认分割结果是否为空,会存在以下两种情形:
[0031]B21、当分割结果为空时,则进入B1;
[0032]B22、当分割结果不为空时,则将分割结果倒序排序,进入B3;
[0033]B3、输出分割排序结果。
[0034]优选的,步骤S3中对数据解析时会匹配已建立的地址层级字典、规范文档,依据已倒序排序后的地址分割数据判断地址数据是否存在城市、行政区划、国家信息,如果存在会将其所在位置索引标记,因为需要连续判断城市、行政区划、国家这三种数据是否存在,所以判断结果数量为23,即存在八种地址层级类型。
[0035]优选的,八种所述地址层级类型分别为城市、行政区划、国家均未发现,仅发现城市,仅发现行政区划,仅发现国家,发现城市、行政区划,发现城市、国家,发现行政区划、国家,城市、行政区划、国家均已发现。
[0036]优选的,在对数据解析时包括如下步骤:
[0037]C1、地址分割排序数据输入,判断当前元素是否为国家,存在以下两种情况:
[0038]C11、当当前元素为国家时,标记已发现国家;
[0039]C12、当当前元素不是国家时,确认当前元素是否为行政区划,存在以下两种情况:
[0040]C121、当当前元素为行政区划时,判断临近元素是否为行政区划,当临近元素不是行政区划时,标记已发现行政区划;
[0041]C122、当当前元素不是行政区划时或C121中临近元素为行政区划时,判断当前元素是否为城市,会存在以下两种情形:
[0042]C1221、当当前元素为城市时,判断临近元素是否为城市,若临近元素不是城市时,则标记已发现城市,并将标记信息输出;
[0043]C1222、当当前元素不为城市时或C1221中临近元素为城市时,则返回C1。
[0044]优选的,步骤S4中,对数据匹配时会对八种地址层级类型进行不同的处本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:包括如下步骤:S1、将英文地址文本输入后通过机构地址二分类模块使用预训练BERT模型融合LSTM将输入数据分割为机构数据和地址数据的二类数据;S2、对地址数据进行清理和排序的数据预处理;S3、对数据预处理后的地址数据进行数据解析,判断是否存在城市、行政区划和国家相应信息;S4、根据数据解析结果进行数据匹配,匹配城市、行政区划和国家相应规范文档,最后按层级输出匹配的城市、行政区划、国家规范信息。2.根据权利要求1所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:所述机构地址二分类模块接收原始地址字符串作为输入,将原始地址字符串通过地址分隔符分割,遍历分割结果,判断当前遍历元素是否为国家或城市,是则跳过;不是则调用模型判断当前元素是否为机构,是则记录,不是则跳过,最终,通过记录的机构信息将地址信息切分出,并返回机构与地址信息。3.根据权利要求2所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:所述机构地址二分类模块在进行分割时,具体包括如下步骤:A1、输入原始地址信息;A2、分割原始地址;A3、遍历分割地址,并确认遍历是否结束,存在以下两种情形:A31、当遍历结束时,根据机构信息将原始地址分割为机构、地址数据,然后再输出机构、地址信息;A32、当遍历未结束时,确认当前元素是否为国家或城市,匹配国家、城市规范文档,会存在以下两种情形:A321、若当前元素为国家或城市,则返回A2;A322、若当前元素不是国家或城市,再模型调用,再确认当前元素是否为机构,存在以下两种情况:A3221、若当前元素不是机构,则返回A2;A3222、若当前元素是机构,则记录机构信息。4.根据权利要求3所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:步骤S2中,对所述地址数据进行数据预处理时,由于输入数据存在噪声,噪声指的是对提取无效,会干扰提取结果的数据,故在数据解析前先对数据进行清洗、排序,即将输入的地址信息两端无用信息去除,清理非地址信息的噪声数据,并用地址分割符将地址分割成多块,并对分割结果进行倒序排序。5.根据权利要求4所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:数据预处理的流程如下:B1地址数据输入后,确认地址数据是否为空,会存在以下两种情况:B11、当输入地址数据为空时,则重新进行地址数据输入,进行B1;B12、若地址数据不为空时,对地址数据清理,进行B2;B2、分割地址信息,并确认分割结果是否为空,会存在以下两种情形:
B21、当分割结果为空时,则进入B1;B22、当分割结果不为空时,则将分割结果倒序...

【专利技术属性】
技术研发人员:张鹤许景芳孙嘉泽李宁李沄沨许若华吴冠昊
申请(专利权)人:中图科信数智技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1