【技术实现步骤摘要】
一种基于英文地址的城市、行政区划、国家识别的提取方法
[0001]本专利技术涉及自然语言处理
,具体为一种基于英文地址的城市、行政区划、国家识别的提取方法。
技术介绍
[0002]随着科学技术的发展,各领域的科研文献发表量与日俱增,加之往日积累的各行各业、各领域学科的科研文献,对科研文献分类管理与分析的难度也愈发艰难。随着信息技术的发展,现如今越来越多的科研机构希望可以使用计算机自动分类管理与分析各类科研文献。通过科研文献中机构(或机构简称)、城市、行政区划、邮编、国家等层级信息组成的英文地址文本中准确识别和提取其中的城市、行政区划、国家文本,可以辅助对科研文献按城市、行政区划、国家进行分类分析与管理,也可以辅助规范科研文献所属机构信息。
[0003]现有的地址信息提取技术主要有两种:其一是基于规则匹配的方法,这种方法通过总结地址层级分布规则,使用规则与地址文本进行匹配,提取出相应信息;其二是基于机器学习模型,基于大量人工标注好的地址文本数据对机器学习模型进行训练,将需提取信息的地址文本数据输入训练好的机器学习模型,通过机器学习模型提取相应信息。
[0004]针对上述两种地址信息提取技术仍分别存在以下缺陷:
[0005]1、基于规则匹配的方法过度依赖于预设的信息提取规则,一旦地址文本数据层级顺序变更,或地址文本数据中存在过多干扰项(夹杂机构、邮编、邮箱、特殊符号等信息)时,基于规则匹配的方法对科研文献英文地址文本数据无法做到精确提取;
[0006]2、基于机器学习模型的方法需要大 ...
【技术保护点】
【技术特征摘要】
1.一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:包括如下步骤:S1、将英文地址文本输入后通过机构地址二分类模块使用预训练BERT模型融合LSTM将输入数据分割为机构数据和地址数据的二类数据;S2、对地址数据进行清理和排序的数据预处理;S3、对数据预处理后的地址数据进行数据解析,判断是否存在城市、行政区划和国家相应信息;S4、根据数据解析结果进行数据匹配,匹配城市、行政区划和国家相应规范文档,最后按层级输出匹配的城市、行政区划、国家规范信息。2.根据权利要求1所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:所述机构地址二分类模块接收原始地址字符串作为输入,将原始地址字符串通过地址分隔符分割,遍历分割结果,判断当前遍历元素是否为国家或城市,是则跳过;不是则调用模型判断当前元素是否为机构,是则记录,不是则跳过,最终,通过记录的机构信息将地址信息切分出,并返回机构与地址信息。3.根据权利要求2所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:所述机构地址二分类模块在进行分割时,具体包括如下步骤:A1、输入原始地址信息;A2、分割原始地址;A3、遍历分割地址,并确认遍历是否结束,存在以下两种情形:A31、当遍历结束时,根据机构信息将原始地址分割为机构、地址数据,然后再输出机构、地址信息;A32、当遍历未结束时,确认当前元素是否为国家或城市,匹配国家、城市规范文档,会存在以下两种情形:A321、若当前元素为国家或城市,则返回A2;A322、若当前元素不是国家或城市,再模型调用,再确认当前元素是否为机构,存在以下两种情况:A3221、若当前元素不是机构,则返回A2;A3222、若当前元素是机构,则记录机构信息。4.根据权利要求3所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:步骤S2中,对所述地址数据进行数据预处理时,由于输入数据存在噪声,噪声指的是对提取无效,会干扰提取结果的数据,故在数据解析前先对数据进行清洗、排序,即将输入的地址信息两端无用信息去除,清理非地址信息的噪声数据,并用地址分割符将地址分割成多块,并对分割结果进行倒序排序。5.根据权利要求4所述的一种基于英文地址的城市、行政区划、国家识别的提取方法,其特征在于:数据预处理的流程如下:B1地址数据输入后,确认地址数据是否为空,会存在以下两种情况:B11、当输入地址数据为空时,则重新进行地址数据输入,进行B1;B12、若地址数据不为空时,对地址数据清理,进行B2;B2、分割地址信息,并确认分割结果是否为空,会存在以下两种情形:
B21、当分割结果为空时,则进入B1;B22、当分割结果不为空时,则将分割结果倒序...
【专利技术属性】
技术研发人员:张鹤,许景芳,孙嘉泽,李宁,李沄沨,许若华,吴冠昊,
申请(专利权)人:中图科信数智技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。