【技术实现步骤摘要】
一种下单地址结构化解析方法和系统
本专利技术涉及地址解析
,更具体而言,涉及一种下单地址结构化解析方法和系统。
技术介绍
随着电商行业的飞速发展,越来越多的人选择网上购物,而在网上下单时最令人烦恼的便是地址信息的填写。智能地址解析工具的出现解决了这一问题,其能根据客户复制粘贴过来的地址文本自动解析出相应的省份、城市、市区、电话以及名字等关键词信息。然而提升地址解析准确度仍然是行业的难点,其主要难点之一是文本关键词分词不准确,所谓文本关键词指的是客户姓名、电话、地址、备注等信息。很多用户在输入这些信息时并没有标点符号或者空格,使得文本关键词信息杂糅在一起,造成了语句结构的混乱;同时,部分文本也存在着关键词信息的缺失,这些都给地址解析模型的准确率带来了困难和挑战。目前的地址解析工具大都需要调用地图接口来进行地址匹配,但采用地图接口进行地址匹配,不仅对于解析地址中包含的其它关键词信息无法区分,而且数据响应时间较长;此外,用户输入的下单地址信息中的非地址关键词信息与地址关键词文本杂糅在一起,往往也会对地图接口返回的结构化地址准 ...
【技术保护点】
1.一种下单地址结构化解析方法,其特征在于,包括如下步骤:/nS1、将待解析下单地址文本项作预处理后,分割成包含地址信息和姓名信息在内的多个子文本项;所述多个子文本项依预处理前的文本顺序依次排序;/nS2、将子文本项依次与省市集合数据集作省市匹配,直至提取出有效省市信息;/nS3、从所述多个子文本项中提取出姓名信息;/nS4、根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关系,提取出地址信息。/n
【技术特征摘要】
1.一种下单地址结构化解析方法,其特征在于,包括如下步骤:
S1、将待解析下单地址文本项作预处理后,分割成包含地址信息和姓名信息在内的多个子文本项;所述多个子文本项依预处理前的文本顺序依次排序;
S2、将子文本项依次与省市集合数据集作省市匹配,直至提取出有效省市信息;
S3、从所述多个子文本项中提取出姓名信息;
S4、根据含有效省市信息的子文本项和含姓名信息的子文本项间的位置关系,提取出地址信息。
2.根据权利要求1所述的下单地址结构化解析方法,其特征在于,所述步骤S1包括:
S11、根据预设匹配规则,识别出待解析下单地址文本项中的预处理信息;所述预处理信息包含预设关键字段、数字信息以及标点符号;
S12、使用预设间隔符替代所述待解析下单地址文本项中的预处理信息,将待解析下单地址文本项分割成包含地址信息和姓名信息在内的多个子文本项。
3.根据权利要求1或2所述的下单地址结构化解析方法,其特征在于,所述步骤S3包括:
S31、选取不含有效省市信息的子文本项中文本长度为2至4的子文本项;
S32、将所述文本长度为2至4的子文本项依次与预设姓氏集合数据集作姓氏匹配,直至提取出姓名信息;
S33、若步骤S32未匹配成功,则将含有效省市信息的子文本项与预设姓氏集合数据集作姓氏匹配,提取出姓名信息。
4.根据权利要求3所述的下单地址结构化解析方法,其特征在于,所述步骤S4包括:
S41、若所述含姓名信息的子文本项在含有效省市信息的子文本项之前,则提取所述含有效省市信息的子文本项之后的所有子文本项作为地址信息;
S42、若所述含姓名信息的子文本项在含有效省市信息的子文本项之后,则提取所述含姓名信息的子文本项与含有效省市信息的子文本项之间的所有子文本项作为地址信息;
S43、若所述含姓名信息的子文本项与含有效省市信息的子文本项为同一个,则提取该子文本项中姓名信息与有效省市信息之间的文本作为地址信息。
5.根据权利要求1所述的下单地址结构化解析方法,其特征在于,所述步骤S2中的有效省市信息包括城市名称信息,或省份和城市名称信息,且省份信息的文本顺序在城市名称信息文本顺序之前。
6.一种下单地址结构化解析系统,其特征在于,包括:
预处理模块,用于将待解析下单地...
【专利技术属性】
技术研发人员:赵兴,陈才宁,
申请(专利权)人:深圳市跨越新科技有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。