通讯地址标准化的系统及其方法技术方案

技术编号:22055706 阅读:27 留言:0更新日期:2019-09-07 15:24
本发明专利技术公开了一种通讯地址标准化的系统及其方法,涉及通讯地址技术领域。本系统是:地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)依次交互;地址分词模块(200)访问数据字典(A);词条标准化模块(300)访问字典映射(B);标注词条模块(400)访问带层级的地址标准库(C)。本发明专利技术使用大量的词库对待标准化的文本地址信息进行正向最大匹配分词处理,从而保证了分词的准确性;采用文本推断算法,解决了同名地址被正确标准化的问题;采用标准地址元数据信息词条分级,可快速完成缺省数据地址填补功能。

The System and Method of Communication Address Standardization

【技术实现步骤摘要】
通讯地址标准化的系统及其方法
本专利技术涉及通讯地址
,尤其涉及一种通讯地址标准化的系统及其方法。
技术介绍
随着技术的逐渐发展,海量的结构化、半结构化和文本数据中存在大量的地址信息,其中这些地址信息中有一些为标准化的地址数据信息,而还有一部分或者说存在很大一部分为非标准化的信息。由于非标准化的地址信息会为需要通过地址信息辅助进行下一步处理的功能带来极大的不便和负担。比如:地址转换经纬度、快递地址投递以及基于地址信息辅助实现的数据去重功能等。以目前系统整合过程中数据身份证缺失而导致去重困难为例。单位对各种来源的数据需要进行集中化管理,由于来源于各种不同数据源的数据可能涉及到同一个体的信息,同一个体的多条数据信息可能存在身份证缺失的情况而存在实体地址信息的情况,地址没有通过标准化而利用地址信息辅助去重会导致数据的丢失,所以此种情况下会导致数据无法去重而直接入库从而导致数据库中出现大量的重复数据。在数据量不但积累的情况下,用户搜索出重复记录会逐渐增加,系统会增加用户的使用负担;此外,过多的冗余数据会增加系统压力,浪费过多的硬件资源。然而随着建立数据中心成为必然趋势,借助于标准化的地址信息去重必然也是非常去重过程中一个非常重要的指标。类似其他利用地址信息进一步处理的功能而言,地址标准化也非常重要。因此,将非标准化的通讯地址信息进行准确的标准化,使其能够为数据去重服务的一个非常重要的参考指标已经成为迫不及待解决的问题。
技术实现思路
本专利技术的目的就在于克服现有技术存在的缺点和不足,提供一种通讯地址标准化的系统及其方法,使未标准化的通讯地址实现通讯地址标准化,从而将未标准化的通讯地址进行标准化处理后,可为依赖于辅助地址进一步处理的功能提供有力的数据支持。一、通讯地址标准化的系统(简称系统)本系统包括地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块、输出标准化地址信息、数据字典、字典映射和带层级的地址标准库;地址接收模块、地址分词模块、词条标准化模块、词条标注模块、词条填补模块、处理未标注词条模块和输出标准化地址信息依次交互;地址分词模块访问数据字典;词条标准化模块访问字典映射;标注词条模块访问带层级的地址标准库。二、方法本方法包括下列步骤:①地址接收模块接收待处理的地址数据;②地址分词模块以数据字典为基础对待处理的地址信息使用最大正向文本匹配算法对数据进行切分,并获取词条信息;③词条标准化模块以循环迭代的方式接收步骤②所获取的词条信息;词条标准化模块判断地址别名和地址标准化名词是在一一对应关系,如果存在则认为其没有歧义,接着实现词条标准化;词条标准化模块判断地址别名和地址标准化名不属于一一对应关系,则认为存在歧义,则将存在歧义的数据放入词条歧义容器中;④词条标注模块通过上下文推断中读取歧义容器中的词条,然后经过词条标准化模块结合带层级的地址信息标准库完成地址词条信息标准化并输出半标准化词条集合;⑤词条填补模块接收词条集合信息,并使用词条算法填补获得半标准化的文本信息;首先收集步骤④输出的地址词条集合信息S1,然后剔除没有被标注层级的词条信息,并将词条保存到集合S2中,然后使用排序算法对集合S1的内容进行从小到大排序;⑥词条填补模块将集合S1中的词条中的标准化词条存入集合P中,并分别取数值为i和i+1(i为集合P内的下标索引)的词条信息;⑦词条填补模块分别取出P[i]和P[i+1]中的词条标注数值进行计算,如果计算出来的值大于1,则使用P[i+1]在带层级的地址库中搜索,直到搜索到的值与P[i]相等,则停止搜索;此时将P[i]和P[i+1]之间的词条保存到集合中,然后逐层循环,获得所有已标注词条之间的词,并对词条进行标注然后保存到集合Q中;⑧词条填补模块将集合P中的词和集合Q中的词进行合并并生成集合PQ,然后根据词条标注字段进行从小到大排序生成集合PQS,最后将已经标注过的词条进行组装,最后输出地址文本信息;⑨未标注地址处理模块对步骤⑤中所产生的未标记层级的词条S2集合进行标注化处理;⑩收集步骤⑧和步骤⑨中的标注化地址信息,并组合输出标注化地址信息。本专利技术具有下列优点和积极效果:1、使用大量的词库对待标准化的文本地址信息进行正向最大匹配分词处理,从而保证了分词的准确性;2、采用文本推断算法,解决了同名地址被正确标准化的问题;3、采用标准地址元数据信息词条分级,可快速完成缺省数据地址填补功能。附图说明:图1是系统的结构方框图;图2是数据字典A的结构方框图;图3是词条标准化模块300的工作流程图;图4是词条填补模块500的工作流程图;图5是带层级的地址标准库C的结构示意图。图中:100—地址接收模块;200—地址分词模块;300—词条标准化模块;400—词条标注模块;500—词条填补模块;600—处理未标注词条模块;700—输出标准化地址信息。A—数据字典,A1—地址元数据标准名,A2—地址元数据标准名别名;B—字典映射;C—带层级的地址标准库。具体实施方式下面结合附图和实际例进一步的说明。一、系统1、总体如图1,本系统包括地址接收模块100、地址分词模块200、词条标准化模块300、词条标注模块400、词条填补模块500、处理未标注词条模块600、输出标准化地址信息700、数据字典A、字典映射B和带层级的地址标准信息库C;地址接收模块100、地址分词模块200、词条标准化模块300、词条标注模块400、词条填补模块500、处理未标注词条模块600和输出标准化地址信息700依次交互;地址分词模块200访问数据字典A;词条标准化模块300访问字典映射B;模块标注词条400访问带层级的地址标准信息库C。2、功能块1)地址接收模块100地址接收模块100是一种用于接收地址信息输入的模块,其功能是专门用于接收外部传递过来的地址信息。2)地址分词模块200地址分词模块200是一种借助于数据字典A用于对地址接收模块100接收的地址信息进行分词处理的模块,其功能是接收地址接收模块100的地址信息,并利用最大正向文本匹配算法对地址信息进行切分,并以词条集合的形式将结果输出。3)词条标准化模块300词条标准化模块300是一种借助于字典映射B将地址分词模块200输出的词条集合进行转化的模块,其功能是专门用于接收地址分词模块200输出的词条集合,并根据字典映射B将不符合标准化的地址表述的词条转化为符合标准化的地址表述的词条。如图3,词条标准化模块300的工作流程是:a、获取词条集合—301;b、以循环迭代的方式获取词条集合中的词条,判断词条是否具备歧义—302,是则经过词条歧义容器-306和上下文推断-307再跳转到步骤e;否则进入步骤c;所述的词条歧义容器-306是指对无法被词条标准化模块300确定为唯一映射的词条进行存储集合;所述的上下文推断-307是指无法被标准化模块300处理的词条进行推断而获得可靠的符合标准化的地址表述的词条,上下文推断是通过所有的地址词条结合无法被唯一识别的地址词条综合判断,从而确定未被处理地址词条的唯一性;c、标准化处理—303标准化模块300确定了待处理词条的唯一性,则将词条信息直接标准化为符合标准化的地址表述的词条;d、将符合标准化的地址表述的词条存入本文档来自技高网...

【技术保护点】
1.一种通讯地址标准化的系统,其特征在于:包括地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)、数据字典(A)、字典映射(B)和带层级的地址标准库(C);地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)依次交互;地址分词模块(200)访问数据字典(A);词条标准化模块(300)访问字典映射(B);标注词条模块(400)访问带层级的地址标准库(C)。

【技术特征摘要】
1.一种通讯地址标准化的系统,其特征在于:包括地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)、数据字典(A)、字典映射(B)和带层级的地址标准库(C);地址接收模块(100)、地址分词模块(200)、词条标准化模块(300)、词条标注模块(400)、词条填补模块(500)、处理未标注词条模块(600)、输出标准化地址信息(700)依次交互;地址分词模块(200)访问数据字典(A);词条标准化模块(300)访问字典映射(B);标注词条模块(400)访问带层级的地址标准库(C)。2.按权利要求1所述的一种通讯地址标准化的系统,其特征在于:所述的词条标准化模块(300)的工作流程是:a、获取词条集合(301);b、以循环迭代的方式获取词条集合中的词条,判断词条是否具备歧义(302),是则经过词条歧义容器(306)和上下文推断(307)再跳转到步骤e;否则进入步骤c;所述的词条歧义容器(306)是指对无法被词条标准化模块300确定为唯一映射的词条的存储集合;所述的上下文推断(307)是指对无法被标准化模块(300)处理的词条进行推断而获得可靠的符合标准化的地址表述的词条,上下文推断是通过所有的地址词条结合无法被唯一识别的地址词条综合判断,从而确定未被处理地址词条的唯一性;c、标准化处理(303)标准化模块(300)确定了待处理词条的唯一性,则将词条信息直接标准化为符合标准化的地址表述的词条;d、将符合标准化的地址表述的词条存入数组B(304);e、输出结果(305)。3.按权利要求1所述的一种通讯地址标准化的系统,其特征在于:所述的词条填补模块500的工作流程是:A、开始(501);B、排序标注过层级的词条(502)词条填补模块(500)使用词条算法填补获得半标准化的文本信息;首先收集词条标准化模块(300)的结果输出到词条集合S1中,然后剔除没有被标注层级的词条信息,并将该词条信息保存到词条集合S2中;然后使用排序算法对集合S1的内容进行从小到大排序;C、词条存入集合P,取词条索引(503)将集合S1中的标准化词条存入集合P中,并分别取数值为i和i+1的词条信息,i的取值范围为:0<i<p.length-1;D、计算词条之间的距离(504)分别取出P[i]和P[i+1]中的词条标注数值进行计算,如果计算出来的值大于1,则使用P[i+...

【专利技术属性】
技术研发人员:伍孟轩
申请(专利权)人:武汉虹信通信技术有限责任公司
类型:发明
国别省市:湖北,42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1