地址信息处理方法和装置、存储介质及电子设备制造方法及图纸

技术编号:26478697 阅读:19 留言:0更新日期:2020-11-25 19:22
本公开涉及一种地址信息处理方法和装置,存储介质及电子设备,所述方法包括确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。

【技术实现步骤摘要】
地址信息处理方法和装置、存储介质及电子设备
本公开涉及信息处理领域,具体地,涉及一种地址信息处理方法和装置、存储介质及电子设备。
技术介绍
很多业务场景中都需要对用户填写的地址信息进行分析和使用,用户在填写地址信息时,可能将地址信息填错、填漏;例如,一些用户会漏填或错填部分信息,如漏填了路号或填入了错别字;或者,在一些应用场景下,需要对用户手写或拍摄的文字进行文字识别生成地址信息,可能出现误识别造成的错字、漏字、多字。地址信息中被错填、漏填的部分会干扰对地址信息的分析,从而影响对地址信息所指向地址的准确定位,从而对地址信息的使用造成不良影响。
技术实现思路
本公开的目的是提供一种地址信息处理方法和装置,存储介质及电子设备,以解决相关技术中对存在错漏的地址信息的分析处理不够准确的问题。为了实现上述目的,本公开的第一方面,提供一种地址信息处理方法,所述方法包括:确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。可选地,确定地址字符串中的路名句段和小区名句段,包括:查找所述地址字符串中属于预设分句词集的分句词,其中,所述预设分句词集包括以下类型分句词:行政区名分句词、路名分句词、小区名分句词、数词分句词、量词分句词;将所述分句词作为分句的起始词和/或截止词,对所述地址字符串进行句段划分处理,得到由所述起始词开始和/或以所述截止词结束的一个或多个句段;根据得到的每一所述句段中包括的所述分句词,以及所述分句词与句段类型的对应关系,从多个所述句段中确定所述路名句段和所述小区名句段;其中,所述分句词与句段类型的对应关系,包括:包括所述路名分句词的句段为所述路名句段;包括所述小区名分句词的句段为所述小区名句段。可选地,所述行政区名分句词包括以下任意字符或字符组合:区、镇、街道、街道办、街道办事处、新区、工业区、工业园、开发区;所述路名分句词包括以下任意字符或字符组合:路、大街、大道、街、社区、街区;所述小区名分句词包括以下任意字符或字符组合:村、新村、邨、新邨、小区、公寓、花园、家园、府邸、公馆、山庄、街坊;所述量词分句词包括以下任意字符或字符组合:号、弄、段、层、室、单元、栋、幢、期;所述数词分句词包括以下任意字符或字符组合:阿拉伯数字、中文数字、罗马数字、英文大写字母、英文小写字母、中文天干字符。可选地,所述分句词与句段类型的对应关系,包括:包括数词分句词,以及在所述数词分句词之后,与所述数词分句词之间无间隔字符的量词分句词的句段为号句段;所述确定地址字符串中的小区名句段,包括:判断所述地址字符串中是否存在路号句段,所述路号句段为在所述路名句段之后,且与所述路名句段无间隔字符的所述号句段;若所述地址字符串中存在所述路号句段,则将在所述路号句段之后,且在所述路号句段之后的首位数词分句词之前的字符串确定为所述小区名句段;若所述地址字符串中不存在所述路号句段,则将在所述路名句段之后,且在所述路名分句词之后的首位数词分句词之前的字符串确定为所述小区名句段。可选地,在确定所述第一地址字符串与所述第二地址字符串对应相同的小区之后,所述方法还包括:获取第一数词序列和第二数词序列,所述第一数词序列为所述第一地址字符串中所述第一小区名句段之后按原有顺序排列的数词分句词组成的数词序列,所述第二数词序列为所述第二地址字符串中所述第二小区名句段之后按原有顺序排列的数词分句词组成的数词序列;判断所述第一数词序列与所述第二数词序列中相同序列位的所述数词分句词是否为对应同一词义的数词;若为对应同一词义的数词,则确定所述第一地址字符串与所述第二地址字符串对应相同的地址。可选地,在确定所述第一地址字符串与所述第二地址字符串对应相同的小区之后,所述方法还包括:将所述第一路名句段和所述第一路名句段后的第一路号句段组成的第一路名组合句段、所述第二路名句段和所述第二路名句段后的第二路号句段组成的第二路名组合句段、所述第一小区名句段和所述第二小区名句段对应存入小区名数据库;所述小区名数据库用于,在接收到用户输入的目标地址信息时在所述小区名数据库中查找与所述目标地址信息匹配的小区名或路名。可选地,计算第一句段和第二句段的相似度,包括:根据所述第一句段和所述第二句段的相同字符数的数目和目标交换操作次数确定所述相似度;其中,所述目标交换操作次数为,重复执行将任意两字符互换字符位置的字符交换操作,直至将所述第一句段中的目标字符的排列顺序,调整至与所述第二句段中的所述目标字符的排列顺序一致时,所需的最少的字符交换操作次数;所述目标字符为在所述第一句段中和所述第二句段中均存在的字符。可选地,所述根据所述第一句段和所述第二句段的相同字符数的数目和目标交换操作次数确定所述相似度,包括:确定所述第一句段和所述第二句段的相同字符数的数目与在所述第一句段和所述第二句段中出现过的字符总量的比值为相交相似度;确定所述目标字符数目与所述目标操作次数的差值与所述目标字符数目的比值为顺序相似度;所述相似度为所述相交相似度和所述顺序相似度的乘积。本公开的第二方面,提供一种地址信息处理装置,所述装置包括:确定模块,用于确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;计算模块,用于计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;处理模块,用于若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。可选地,所述确定模块,包括:查找子模块,用于查找所述地址字符串中属于预设分句词集的分句词,其中,所述预设分句词集包括以下类型分句词:行政区名分句词、路名分句词、小区名分句词、数词分句词、量词分句词;分句子模块,用于将所述分句词作为分句的起始词和/或截止词,对所述地址字符串进行句段划分处理,得到由所述起始词开始和/或以所述截止词结束的一个或多个句段;确定子模块,用于根据得到的每一所述句段中包括的所述分句词,以及所述分句词与句段类型的对应关系,从多个所述句段中确定路名句段和小区名句段;其中,所述分句词与句段类型的对应关系,包括:包括所述路名分句词的句段为所述路名句段;包括所述小区名分句词的句段为所述小区名句段。可选地,所述行政区名分句词包括以下任意字符或字符组合:区、镇、街道、街道办、街道办事处、新区、工业区、工业园、开发区;所述路名分句词包括以下任意字符或字符组合:路、大街、大道、街、社区、街区;所述小区名分句词包括以下任意字符或字符组合:村、新村、邨、新邨、小区、公寓、花园、家园、府邸、公馆、山庄、街坊;所述量词分句词包括以下任意字符或字符组合:号、弄、本文档来自技高网...

【技术保护点】
1.一种地址信息处理方法,其特征在于,所述方法包括:/n确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;/n计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;/n若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。/n

【技术特征摘要】
1.一种地址信息处理方法,其特征在于,所述方法包括:
确定第一地址字符串中第一路名句段和第一小区名句段,确定第二地址字符串中的第二路名句段和第二小区名句段;
计算所述第一路名句段和所述第二路名句段的第一相似度,并计算所述第一小区名句段和所述第二小区名句段的第二相似度;
若所述第一相似度高于第一相似度阈值,且所述第二相似度高于第二相似度阈值,确定所述第一地址字符串与所述第二地址字符串对应相同的小区。


2.根据权利要求1所述的方法,其特征在于,确定地址字符串中的路名句段和小区名句段,包括:
查找所述地址字符串中属于预设分句词集的分句词,其中,所述预设分句词集包括以下类型分句词:行政区名分句词、路名分句词、小区名分句词、数词分句词、量词分句词;
将所述分句词作为分句的起始词和/或截止词,对所述地址字符串进行句段划分处理,得到由所述起始词开始和/或以所述截止词结束的一个或多个句段;
根据得到的每一所述句段中包括的所述分句词,以及所述分句词与句段类型的对应关系,从多个所述句段中确定所述路名句段和所述小区名句段;
其中,所述分句词与句段类型的对应关系,包括:
包括所述路名分句词的句段为所述路名句段;
包括所述小区名分句词的句段为所述小区名句段。


3.根据权利要求2所述的方法,其特征在于,
所述行政区名分句词包括以下任意字符或字符组合:区、镇、街道、街道办、街道办事处、新区、工业区、工业园、开发区;
所述路名分句词包括以下任意字符或字符组合:路、大街、大道、街、社区、街区;
所述小区名分句词包括以下任意字符或字符组合:村、新村、邨、新邨、小区、公寓、花园、家园、府邸、公馆、山庄、街坊;
所述量词分句词包括以下任意字符或字符组合:号、弄、段、层、室、单元、栋、幢、期;
所述数词分句词包括以下任意字符或字符组合:阿拉伯数字、中文数字、罗马数字、英文大写字母、英文小写字母、中文天干字符。


4.根据权利要求2所述的方法,其特征在于,所述分句词与句段类型的对应关系,包括:
包括数词分句词,以及在所述数词分句词之后,与所述数词分句词之间无间隔字符的量词分句词的句段为号句段;
所述确定地址字符串中的小区名句段,包括:
判断所述地址字符串中是否存在路号句段,所述路号句段为在所述路名句段之后,且与所述路名句段无间隔字符的所述号句段;
若所述地址字符串中存在所述路号句段,则将在所述路号句段之后,且在所述路号句段之后的首位数词分句词之前的字符串确定为所述小区名句段;
若所述地址字符串中不存在所述路号句段,则将在所述路名句段之后,且在所述路名分句词之后的首位数词分句词之前的字符串确定为所述小区名句段。


5.根据权利要求2所述的方法,其特征在于,在确定所述第一地址字符串与所述第二地址字符串对应相同的小区之后,所述方法还包括:
获取第一数词序列和第二数词序列,所述第一数词序列为所述第一地址字符串中所述第一小区名句段之后按原有顺序排列的数词分句词组成的数词序列,所述第二数词序列为所述第二地址字符串中所述第二小区名句段之后按原有顺序排列的数词分句词组成的数词序列;
判断所述第一数词序列与所述第二数词序列中相同序列位的所述数词分句词是否为对应同一词义的数词;
若为对应同一词义的数词,则确定所述第一地址字符串与所述第二地址字符串对应相同的地址。


6.根据权利要求4所述的方法,其特征在于,在确定所述第一地址字符串与所述第二地址字符串对应相同的小区之后,所述方法还包括:
将所述第一路名句段和所述第一路名句段后的第一路号句段组成的第一路名组合句段、所述第二路名句段和所述第二路名句段后的第二路号句段组成的第二路名组合句段、所述第一小区名句段和所述第二小区名句段对应存入小区名数据库;
所述小区名数据库用于,在接收到用户输入的目标地址信息时在所述小区名数据库中查找与所述目标地址信息匹配的小区名或路名。


7.根据权利要求1-6任一项所述的方法,其特征在于,计算第一句段和第二句段的相似度,包括:
根据所述第一句段和所述第二句段的相同字符数的数目和目标交换操作次数确定所述相似度;
其中,所述目标交换操作次数为,重复执行将任意两字符互换字符位置的字符交换操作,直至将所述第一句段中的目标字符的排列顺序,调整至与所述第二句段中的所述目标字符的排列顺序一致时,所需的最少的字符交换操作次数;
所述目标字符为在所述第一句段中和所述第二句段中均存在的字符。


8.根据权利要求7所述的方法,其特征在于,所述根据所述第一句段和所述第二句段的相同字符数的数目和目标交换操作次数确定所述相似度,包括:
确定所述第一句段和所述第二句段的相同字符数的数目与在...

【专利技术属性】
技术研发人员:周立勇周立
申请(专利权)人:深圳中兴飞贷金融科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1