System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及地址识别,具体涉及一种地址识别方法、装置、计算机设备及存储介质。
技术介绍
1、随着电子商务的发展,物流行业发展迅猛,用户地址是物流行业能够及时完成业务的重要信息。为了保证执行业务时的安全性,需要对用户地址进行识别,以判断地址文本的真实性。现有技术通常是通过人工对海量地址文本进行识别,此种方式存在人工成本高,识别效率及识别准确率低的问题。
技术实现思路
1、本申请实施例提供一种地址识别方法、装置、计算机设备及存储介质,可以自动对海量地址文本进行识别,减少人工成本,提高海量地址的识别效率及识别准确率。
2、一方面,本申请提供一种地址识别方法,所述地址识别方法包括:
3、获取待识别地址文本;
4、对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;
5、基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;
6、当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;
7、基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。
8、在本申请一些实施方案中,所述基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域,包括:
10、将所述分词文本与所述网点区域所覆盖的地址进行匹配,得到第一匹配结果;
11、当所述第一匹配结果为匹配时,确定所述待识别地址文本归属于预设的网点区域。
12、在本申请一些实施方案中,所述基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,包括:
13、判断所述多个第一地址分词中是否包含指示方向词;
14、当所述多个第一地址分词中包含指示方向词时,基于所述指示方向词的类型及所述指示方向词与所述多个第一地址分词的位置关系对所述多个第一地址分词进行筛选,得到多个第三地址分词;
15、基于预设的词性范围从所述多个第三地址分词中筛选出多个第二地址分词。
16、在本申请一些实施方案中,所述指示方向词包括前向方向词和后向方向词,所述位置关系包括所述第一地址分词位于所述指示方向词之前和所述第一地址分词位于所述指示方向词之后。
17、在本申请一些实施方案中,所述识别结果包括可信地址和可疑地址,所述基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果,包括:
18、将所述多个第二地址分词与预设的地址数据库中的地址数据进行匹配,得到第二匹配结果;
19、根据所述第二匹配结果,确定所述待识别地址文本是否具有唯一性;
20、当所述待识别地址文本具有唯一性时,基于所述分词文本确定所述待识别地址文本是否符合预设书写规则;
21、当所述待识别地址文本符合预设书写规则时,确定所述待识别地址为可信地址。
22、在本申请一些实施方案中,所述基于所述分词文本确定所述待识别地址文本是否符合预设书写规则,包括:
23、将所述分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三匹配结果;
24、当所述第三匹配结果为不匹配时,确定所述待识别地址文本符合预设书写规则。
25、在本申请一些实施方案中,所述对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,包括:
26、对所述待识别地址文本进行处理,得到所述待识别地址文本对应的目标字向量序列;
27、将所述目标字向量序列输入已训练的地址分词模型,通过所述地址分词模型输出所述待识别地址文本对应的目标标签序列;
28、根据所述目标标签序列,确定所述待识别地址文本对应的分词文本。
29、另一方面,本申请提供一种地址识别装置,所述地址识别装置包括:
30、地址获取单元,用于获取待识别地址文本;
31、地址分词单元,用于对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分词文本,所述分词文本包括多个第一地址分词及所述多个第一地址分词对应的多个地址词性;
32、第一确定单元,用于基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域;
33、第二确定单元,用于当所述待识别地址文本归属于预设的网点区域时,基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,所述多个第二地址分词为所述多个第一地址分词中地址词性属于所述词性范围的地址分词;
34、地址识别单元,用于基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果。
35、在本申请一些实施方案中,所述地址分词单元具体用于:
36、对所述待识别地址文本进行处理,得到所述待识别地址文本对应的目标字向量序列;
37、将所述目标字向量序列输入已训练的地址分词模型,通过所述地址分词模型输出所述待识别地址文本对应的目标标签序列;
38、根据所述目标标签序列,确定所述待识别地址文本对应的分词文本。
39、在本申请一些实施方案中,所述第一确定单元具体用于:
40、获取预设的网点区域所覆盖的地址;
41、将所述分词文本与所述网点区域所覆盖的地址进行匹配,得到第一匹配结果;
42、当所述第一匹配结果为匹配时,确定所述待识别地址文本归属于预设的网点区域。
43、在本申请一些实施方案中,所述第二确定单元具体用于:
44、判断所述多个第一地址分词中是否包含指示方向词;
45、当所述多个第一地址分词中包含指示方向词时,基于所述指示方向词的类型及所述指示方向词与所述多个第一地址分词的位置关系对所述多个第一地址分词进行筛选,得到多个第三地址分词;
46、基于预设的词性范围从所述多个第三地址分词中筛选出多个第二地址分词。
47、在本申请一些实施例中,所述识别结果包括可信地址和可疑地址,所述地址识别单元具体用于:
48、将所述多个第二地址分词与预设的地址数据库中的地址数据进行匹配,得到第二匹配结果;
49、根据所述第二匹配结果,确定所述待识别地址文本是否具有唯一性;
50、当所述待识别地址文本具有唯一性时,基于所述分词文本确定所述待识别地址文本是否符合预设书写规则;
51、当所述待识别地址文本符合预设书写规则时,确定所述待识别地址为可信地址。
52、在本申请一些实施例中,所述地址识别单元具体还用于:
53、将所述分词文本与预设的非正常地址的正则表达规则进行匹配,得到第三本文档来自技高网...
【技术保护点】
1.一种地址识别方法,其特征在于,所述地址识别方法包括:
2.根据权利要求1所述的地址识别方法,其特征在于,所述基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域,包括:
3.根据权利要求1所述的地址识别方法,其特征在于,所述基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,包括:
4.根据权利要求3所述的地址识别方法,其特征在于,所述指示方向词包括前向方向词和后向方向词,所述位置关系包括所述第一地址分词位于所述指示方向词之前和所述第一地址分词位于所述指示方向词之后。
5.根据权利要求1至4任一项所述的地址识别方法,其特征在于,所述识别结果包括可信地址和可疑地址,所述基于所述多个第二地址分词及所述分词文本,确定所述待识别地址文本的识别结果,包括:
6.根据权利要求5所述的地址识别方法,其特征在于,所述基于所述分词文本确定所述待识别地址文本是否符合预设书写规则,包括:
7.根据权利要求1所述的地址识别方法,其特征在于,所述对所述待识别地址文本进行分词,得到所述待识别地址文本对应的分
8.一种地址识别装置,其特征在于,所述地址识别装置包括:
9.一种计算机设备,其特征在于,所述计算机设备包括:
10.一种计算机可读存储介质,其特征在于,其上存储有计算机程序,所述计算机程序被处理器进行加载,以执行权利要求1至7任一项所述的地址识别方法中的步骤。
...【技术特征摘要】
1.一种地址识别方法,其特征在于,所述地址识别方法包括:
2.根据权利要求1所述的地址识别方法,其特征在于,所述基于所述分词文本,确定所述待识别地址文本是否归属于预设的网点区域,包括:
3.根据权利要求1所述的地址识别方法,其特征在于,所述基于预设的词性范围从所述多个第一地址分词中筛选出多个第二地址分词,包括:
4.根据权利要求3所述的地址识别方法,其特征在于,所述指示方向词包括前向方向词和后向方向词,所述位置关系包括所述第一地址分词位于所述指示方向词之前和所述第一地址分词位于所述指示方向词之后。
5.根据权利要求1至4任一项所述的地址识别方法,其特征在于,所述识别结果包括可信地址和可疑地址,所述基...
【专利技术属性】
技术研发人员:王珊珊,张定棋,
申请(专利权)人:丰图科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。