文本地址处理方法及装置制造方法及图纸

技术编号：13792624 阅读：43 留言：0更新日期：2016-10-06 04:20

本申请提供一种文本地址处理方法及装置。方法包括：根据业务系统中用户的社会关系圈，确定至少一个地址集合，每个地址集合包括：至少两个原始文本地址；对于每个地址集合，对地址集合中的原始文本地址进行归一化处理，以获得地址集合对应的目标文本地址。本申请以用户的社会关系圈对待归一化的原始文本地址进行了划分，一方面相当于缩小了待归一化的原始文本地址的范围，另一方面相当于将文本地址的归一化锁定在具有一定联系的文本地址之间，可以更加容易地把控文本地址之间的容错边界，有利于提高归一化结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及通信
，尤其涉及一种文本地址处理方法及装置。
技术介绍
随着互联网技术的发展，基于互联网的应用越来越广泛。在互联网应用中，经常需要用户以文本方式填写一些地址信息，例如家庭住址、公司地址等。将用户对地址信息的文本描述方式简称为文本地址。用户以文本方式填写地址信息时，一般都有自己的描述习惯，且不同用户的描述习惯一般不同，这就导致同一地址信息对应不同的文本地址。例如，对于“一号楼一单元”这样的地址信息，有的用户会描述成“101”，有的用户会描述成“1-01”，有的用户会描述成“一号楼一单元”等，导致同一地址信息出现多种文本地址。为了便于对地址信息进行管理和应用(例如可以基于地址信息做一些应用挖掘等)，需要对文本地址进行归一化处理，即需要将对应同一地址信息的不同文本地址统一成一个文本地址。现有为本地址归一化的思路主要是：确定所有需要进行归一化的文本地址，提取文本地址所包含的标准片段，然后基于文本地址所包含的标准片段两两计算相关度，基于两个文本地址的相关度确定两个文本地址是否应该被归一化。由于文本地址本身存在多样性，对于描述同一地址信息的不同文本地址的文本内容可能差异较大，而描述不同地址信息的文本地址在文本内容上可能差异较小，基于此，若需要进行归一化处理的文本地址数量较多，就会使容错边界难以把控，导致文本地址的归一化结果的准确率较低。
技术实现思路
本申请的多个方面提供一种文本地址处理方法及装置，用以提高文本地址的归一化结果的准确率。本申请的一方面，提供一种文本地址处理方法，包括：根据业务系统中用户的社会关系圈，确定至少一个地址集合，所述至...

【技术保护点】
一种文本地址处理方法，其特征在于，包括：根据业务系统中用户的社会关系圈，确定至少一个地址集合，所述至少一个地址集合中的每个地址集合包括：至少两个原始文本地址；对于每个地址集合，对所述地址集合中的原始文本地址进行归一化处理，以获得所述地址集合对应的目标文本地址。

【技术特征摘要】
1.一种文本地址处理方法，其特征在于，包括：根据业务系统中用户的社会关系圈，确定至少一个地址集合，所述至少一个地址集合中的每个地址集合包括：至少两个原始文本地址；对于每个地址集合，对所述地址集合中的原始文本地址进行归一化处理，以获得所述地址集合对应的目标文本地址。2.根据权利要求1所述的方法，其特征在于，所述根据业务系统中用户的社会关系圈，确定至少一个地址集合，包括：确定所述业务系统中每个用户的社会关系圈；获取每个用户使用的文本地址以及每个用户的社会关系圈中的用户使用的文本地址，以构成一个地址集合。3.根据权利要求1所述的方法，其特征在于，所述对所述地址集合中的原始文本地址进行归一化处理，以获得所述地址集合对应的目标文本地址，包括：根据所述地址集合中的每两个原始文本地址的特征，计算所述每两个原始文本地址的相似度；根据所述每两个原始文本地址的相似度，确定所述每两个原始文本地址是否可以归一化成所述每两个原始文本地址中的一个，以获得所述地址集合对应的目标文本地址。4.根据权利要求3所述的方法，其特征在于，所述根据所述地址集合中的每两个原始文本地址的特征，计算所述每两个原始文本地址的相似度，包括：对所述地址集合中每两个原始文本地址的进行特征提取，以获得所述每两个原始文本地址的标准片段特征、经纬度特征以及字母数字特征中的至少一个特征；对于所述至少一个特征中的每个特征，根据所述特征，计算所述每两个原始文本地址对应于所述特征的相似度。5.根据权利要求4所述的方法，其特征在于，所述根据所述特征，计算所
\t述每两个原始文本地址对应于所述特征的相似度，包括：若所述特征为标准片段特征，则采用SimHash算法对所述每两个原始文本地址的标准片段特征进行处理，获得所述每两个原始文本地址在标准片段特征维度上的相似度；若所述特征为经纬度特征，则采用经纬度距离算法对所述每两个原始文本地址的经纬度特征进行处理，获得所述每两个原始文本地址在经纬度特征维度上的相似度；若所述特征为字母数字特征，则采用杰卡德系数算法对所述每两个原始文本地址的字母数字特征进行处理，获得所述每两个原始文本地址在字母数字特征维度上的相似度。6.根据权利要求1-5任一项所述的方法，其特征在于，在获得每个地址集合对应的目标文本地址之后，还包括：根据归一化处理过程中形成的目标文本地址与原始文本地址的对应关系，确定对应于同一原始文本地址的至少两个目标文本地址；对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。7.根据权利要求6所述的方法，其特征在于，所述对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理，包括：获取所述对应于同一原始文本地址的至少两个目标文本地址各自对应的原始文本地址所包含的标准地址片段的片段交集；根据所述片段交集，对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理。8.根据权利要求7所述的方法，其特征在于，所述根据所述片段交集，对所述对应于同一原始文本地址的至少两个目标文本地址进行归一化处理，包括：若所述片段交集可以表征所述对应于同一原始文本地址的至少两个目标文本地址中的一个，则将所述对应于同一原始文本地址的至少两个目标文本地址归一化成所...

【专利技术属性】
技术研发人员：熊军，
申请(专利权)人：阿里巴巴集团控股有限公司，
类型：发明
国别省市：开曼群岛;KY

全部详细技术资料下载我是这个专利的主人