文本地址处理方法及装置制造方法及图纸

技术编号:13792624 阅读:43 留言:0更新日期:2016-10-06 04:20
本申请提供一种文本地址处理方法及装置。方法包括:根据业务系统中用户的社会关系圈,确定至少一个地址集合,每个地址集合包括:至少两个原始文本地址;对于每个地址集合,对地址集合中的原始文本地址进行归一化处理,以获得地址集合对应的目标文本地址。本申请以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面相当于缩小了待归一化的原始文本地址的范围,另一方面相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,可以更加容易地把控文本地址之间的容错边界,有利于提高归一化结果的准确性。

【技术实现步骤摘要】

本申请涉及通信
,尤其涉及一种文本地址处理方法及装置
技术介绍
随着互联网技术的发展,基于互联网的应用越来越广泛。在互联网应用中,经常需要用户以文本方式填写一些地址信息,例如家庭住址、公司地址等。将用户对地址信息的文本描述方式简称为文本地址。用户以文本方式填写地址信息时,一般都有自己的描述习惯,且不同用户的描述习惯一般不同,这就导致同一地址信息对应不同的文本地址。例如,对于“一号楼一单元”这样的地址信息,有的用户会描述成“101”,有的用户会描述成“1-01”,有的用户会描述成“一号楼一单元”等,导致同一地址信息出现多种文本地址。为了便于对地址信息进行管理和应用(例如可以基于地址信息做一些应用挖掘等),需要对文本地址进行归一化处理,即需要将对应同一地址信息的不同文本地址统一成一个文本地址。现有为本地址归一化的思路主要是:确定所有需要进行归一化的文本地址,提取文本地址所包含的标准片段,然后基于文本地址所包含的标准片段两两计算相关度,基于两个文本地址的相关度确定两个文本地址是否应该被归一化。由于文本地址本身存在多样性,对于描述同一地址信息的不同文本地址的文本内容可能差异较大,而描述不同地址信息的文本地址在文本内容上可能差异较小,基于此,若需要进行归一化处理的文本地址数量较多,就会使容错边界难以把控,导致文本地址的归一化结果的准确率较低。
技术实现思路
本申请的多个方面提供一种文本地址处理方法及装置,用以提高文本地址的归一化结果的准确率。本申请的一方面,提供一种文本地址处理方法,包括:根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。本申请的另一方面,提供一种文本地址处理装置,包括:确定模块,用于根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;归一化模块,用于对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。在本申请中,根据业务系统中用户的社会关系圈,确定至少一个地址集合,之后以地址集合为单位,分别对每个地址集合中的原始文本地址进行归一化处理,以获得每个地址集合对应的目标文本地址,实现对文本地址的归一化处理。由于以用户的社会关系圈对待归一化的原始文本地址进行了划分,一方面将待归一化的原始文本地址的范围限定在了用户的社会关系圈内,相当于缩小了待归一化的原始文本地址的范围,另一方面与非社会关系圈内用户使用的文本地址相比,社会关系圈内用户使用的文本地址在一定程度上存在一些联系,相当于将文本地址的归一化锁定在具有一定联系的文本地址之间,从而使得更加容易地把控文本地址之间的容错边界,有利于提高文本地址的归一化结果的准确性。【附图说明】为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有
技术描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请一实施例提供的文本地址处理方法的流程示意图;图2为本申请一实施例提供的归一化过程图示示意图;图3为本申请一实施例提供的文本地址处理装置的结构示意图。【具体实施方式】为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。图1为本申请一实施例提供的文本地址处理方法的流程示意图。如图1所示,该方法包括:101、根据业务系统中用户的社会关系圈,确定至少一个地址集合,至少一个地址集合中的每个地址集合包括:至少两个原始文本地址。102、对于每个地址集合,对该地址集合中的原始文本地址进行归一化处理,以获得该地址集合对应的目标文本地址。本实施例提供一种文本地址处理方法,可由文本地址处理装置来执行。本实施例提供的方法主要用于对文本地址进行归一化处理。首先说明,本实施例中的文本地址是指对地址信息的文本描述。不同文本地址可能是对同一地址信息的文本描述。另外,为便于描述和区分,本实施例将归一化之前的文本地址称为原始文本地址,将归一化之后得到的文本地址称为目标文本地址。无论是原始文本地址还是目标文本地址,都是对地址信息的文本描述。通常,只有在有归一化需求时,才会对文本地址进行归一化处理。而对文本地址进行归一化处理的需求,通常是针对某个或某些业务系统的。简单来说就是,需要针对某个或某些业务系统,对与之相关的文本地址进行归一化,以便于通过归一化的文本地址进行新的业务或新的业务需求的挖掘,或者进行有关信息的统计分析等。值得说明的是,本实施例并不对业务系统进行限制,该业务系统可以是各种会涉及到文本地址的业务系统,例如可以是电子商务系统、在线支付系统、即时通讯系统、电子邮件系统等等。在进行文本地址归一化处理之前,需要确定与业务系统相关的待归一化处理的原始文本地址。在本申请中,根据业务系统中用户的社会关系圈,确定与业务系统相关的原始文本地址。对一用户来说,其社会关系圈主要包括与该用户存在关联关系的其他用户。优选的,可以从与该用户存在关联关系的其他用户中,选择关联关系较密切的其他用户作为该用户的社会关系圈。举例说明,获取用户的社会关系圈可以采用以下至少一种方式:获取与该用户存在资金往来(例如转账)的其他用户作为该用户的社会关系圈中的用户;优选的,可以获取与该用户的转账频次或者金额超过一定的阈值的其他用户作为该用户的社会关系圈中的用户;获取该用户的通讯录中里面的其他用户作为该用户的社会关系圈中的用户;一般用户授权后,各应用都可以读取到的用户的通讯录;获取通过即时通讯工具与该用户进行通讯的其他用户作为该用户的社会关系圈中的用户;即时通讯工具包括但不限于微信、QQ等;优选的,获取与该用户的互动频次或通讯时长超过一定的阈值的其他用户作为该用户的社会关系圈中的用户;获取与该用户使用同一台设备的其他用户作为该用户的社会关系圈中的用户,这里的设备可以包括电脑、手机、WIFI等,优选的,获取与该用户使用同一台设备的频次或时长超过一定阈值的其他用户作为该用户的社会关系圈中的用户。具体的,当需要进行文本地址归一化处理时,文本地址处理装置根据业务系统中用户的社会关系圈,确定至少一个地址集合。其中,每个地址集合包括至少两个原始文本地址。在该过程中,除了根据用户的社会关系圈确定与业务系统相关的原始文本地址之外,同时对与该业务系统有关的原始文本地址进行了划分,将与业务系统相关的原始文本地址划分到不同的地址集合中。在一种可选实施方式中,可以根据业务系统中的用户数量来确定地址集合的数量,例如一个用户对应一个地址集合。具体的,对业务系统中的每个用户来说,文本地址处理装置首先需要确定该用户的社会关系圈(具体可以采用前面描述的方式确定用本文档来自技高网
...

【技术保护点】
一种文本地址处理方法,其特征在于,包括:根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。

【技术特征摘要】
1.一种文本地址处理方法,其特征在于,包括:根据业务系统中用户的社会关系圈,确定至少一个地址集合,所述至少一个地址集合中的每个地址集合包括:至少两个原始文本地址;对于每个地址集合,对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址。2.根据权利要求1所述的方法,其特征在于,所述根据业务系统中用户的社会关系圈,确定至少一个地址集合,包括:确定所述业务系统中每个用户的社会关系圈;获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址,以构成一个地址集合。3.根据权利要求1所述的方法,其特征在于,所述对所述地址集合中的原始文本地址进行归一化处理,以获得所述地址集合对应的目标文本地址,包括:根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度;根据所述每两个原始文本地址的相似度,确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个,以获得所述地址集合对应的目标文本地址。4.根据权利要求3所述的方法,其特征在于,所述根据所述地址集合中的每两个原始文本地址的特征,计算所述每两个原始文本地址的相似度,包括:对所述地址集合中每两个原始文本地址的进行特征提取,以获得所述每两个原始文本地址的标准片段特征、经纬度特征以及字母数字特征中的至少一个特征;对于所述至少一个特征中的每个特征,根据所述特征,计算所述每两个原始文本地址对应于所述特征的相似度。5.根据权利要求4所述的方法,其特征在于,所述根据所述特征,计算所
\t述每两个原始文本地址对应于所述特征的相似度,包括:若所述特征为标准片段特征,则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理,获得所述每两个原始文本地址在标准片段特征维度上的相似度;若所述特征为经纬度特征,则采用经纬度距离算法对所述每两个原始文本地址的经纬度特征进行处理,获得所述每两个原始文本地址在经纬度特征维度上的相似度;若所述特征为字母数字特征,则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理,获得所述每两个原始文本地址在字母数字特征维度上的相似度。6.根据权利要求1-5任一项所述的方法,其特征在于,在获得每个地址集合对应的目标文本地址之后,还包括:根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系,确定对应于同一原始文本地址的至少两个目标文本地址;对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。7.根据权利要求6所述的方法,其特征在于,所述对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理,包括:获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集;根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。8.根据权利要求7所述的方法,其特征在于,所述根据所述片段交集,对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理,包括:若所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个,则将所述对应于同一原始文本地址的至少两个目标文本地址归一化成所...

【专利技术属性】
技术研发人员:熊军
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1