System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种地址成分识别方法、装置、计算机设备及存储介质制造方法及图纸_技高网

一种地址成分识别方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:40236433 阅读:7 留言:0更新日期:2024-02-02 22:36
本申请提出了一种地址成分识别方法、装置、计算机设备及存储介质,其中方法包括:接收地址识别请求,获取待识别文本;对待识别文本进行多特征构建处理,得到对应的特征集合;其中,多特征构建处理包括切字处理、分词处理、词权重计算、五级地址匹配、类别词词典匹配、门址词典匹配、方位词词典匹配、地址后缀词词典匹配、标点识别、数字识别和英文识别;将特征集合输入至条件随机场模型进行中文地址成分识别,得到地址成分识别结果。本申请通过构建多种有效特征并引入到条件随机场模型中,有效提高模型在中文地址成分边界划分上的准确性,进一步提升地址成分识别准确率。

【技术实现步骤摘要】

本申请涉及信息处理,具体涉及一种地址成分识别方法、装置、计算机设备及存储介质


技术介绍

1、随着互联网经济的迅速发展,带动了电子商务高度发展,无论是传统电商还是线下o2o交易行为都强依赖用户的地理位置信息,“选购-填写地址-付款-完单”已经成为经典的电商交易模式。在此过程中,用户的地理位置信息以及对用户填写地址的解析,是完成该交易的重要一环。对地址的解析即是地址元素分析,具体来说就是解析出用户输入的地址信息中所指示的省、市、区、县、乡、村、镇、街道、道路、门牌号等。

2、但是,在对现有技术的研究与实践的过程中,本申请的专利技术人发现,目前中文地址成分识别的主流技术主要包括词典规则匹配和统计学习两种方式,其中词典规则匹配的泛化性较差,只能解决词典规则覆盖面内的问题,对于未录入词的识别往往需要依赖于统计学习算法,通过人工构建有效特征,利用统计学习算法对中文地址进行成分标注,但如今采用统计学习算法进行中文地址成分识别方案中采用的特征大都较为简单,比如分词和位置等。因此,目前中文地址成分识别技术存在特征构建相对简单或缺乏构建有效特征的缺陷,从而导致算法模型得到的信息较为匮乏并降低算法模型学习能力,进而导致地址成分识别准确率低下的问题。

3、前面的叙述在于提供一般的背景信息,并不一定构成现有技术。


技术实现思路

1、针对上述技术问题,本申请提供一种地址成分识别方法、装置、计算机设备及存储介质,通过构建多种有效特征并引入到条件随机场模型中,有效提高模型在中文地址成分边界划分上的准确性,解决现有技术在识别边界和成分类型时准确率低下的问题。

2、为解决上述技术问题,本申请提供了一种地址成分识别方法,至少包括如下步骤:

3、接收地址识别请求,获取待识别文本;

4、对所述待识别文本进行多特征构建处理,得到对应的特征集合;其中,所述多特征构建处理包括切字处理、分词处理、词权重计算、五级地址匹配、类别词词典匹配、门址词典匹配、方位词词典匹配、地址后缀词词典匹配、标点识别、数字识别和英文识别;

5、将所述特征集合输入至条件随机场模型进行中文地址成分识别,得到地址成分识别结果。

6、可选地,所述特征集合包括所述待识别文本对应的字符特征、分词特征、词权重特征、五级地址特征、类别词特征、门址特征、方位词特征、地址后缀词特征、标点特征、数字特征和英文特征。

7、可选地,所述切字处理,包括:

8、将所述待识别文本中的每个字符分开,得到对应的字符特征。

9、可选地,所述分词处理,包括:

10、将所述待识别文本以词语为粒度进行切分处理;

11、采用bie标注法对进行切分处理后的待识别文本进行标注,得到对应的分词特征。

12、可选地,所述词权重计算,包括:

13、赋予以词语为粒度进行切分处理后得到的每个词的权重;

14、通过词频-逆文档频率模型计算每个词的权重得分;

15、根据预设标记规则,将每个词的权重得分进行标记后得到词权重特征。

16、可选地,所述五级地址匹配,包括:

17、对地址库中的行政地址进行挖掘后,构建五级地址词典;

18、采用所述五级地址词典构建字典树;

19、通过ac自动机算法和所述字典树匹配所述待识别文本中的行政地址候选词;

20、通过所述五级地址词典确定所述行政地址候选词所属的级别;

21、根据所述行政地址候选词所属的级别确定所述待识别文本对应的五级地址特征。

22、可选地,所述类别词词典匹配,包括:

23、对地址库中的兴趣点短语进行分词后截取多个字节片段;

24、对所述多个字节片段进行词频排序和筛选后,得到类别词词典;

25、基于所述类别词词典构建类别字典树;

26、基于ac自动机算法和所述类别字典树匹配所述待识别文本的类别词;

27、基于所述类别词确定所述待识别文本对应的类别词特征。

28、可选地,所述门址词典匹配,包括:

29、基于获取的门址词构建门址词典;

30、通过所述门址词典对所述待识别文本中的门址词进行标记,得到对应的门址特征。

31、可选地,所述方位词词典匹配,包括:

32、基于获取的方位词构建方位词词典;

33、通过所述方位词词典对所述待识别文本中的方位词进行标记,得到对应的方位词特征。

34、可选地,所述地址后缀词词典匹配,包括:

35、基于获取的地址后缀词构建地址后缀词词典;

36、通过所述地址后缀词词典对所述待识别文本中的地址后缀词进行标记,得到对应的地址后缀词特征。

37、可选地,所述标点识别,包括:

38、对所述待识别文本中的标点符号进行标记,得到对应的标点特征。

39、可选地,所述数字识别,包括:

40、对所述待识别文本中的数字进行标记,得到对应的数字特征。

41、可选地,所述英文识别,包括:

42、对所述待识别文本中的英文字母进行标记,得到对应的英文特征。

43、可选地,所述将所述特征集合输入至条件随机场模型进行中文地址成分识别,得到地址成分识别结果,包括:

44、将所述特征集合输入至预先构建的条件随机场模型的输入层;

45、在通过所述条件随机场模型进行中文地址成分识别后,得到所述条件随机场模型输出的地址成分识别结果;

46、基于所述地址成分识别结果确定所述待识别文本对应的中文地址成分。

47、相应地,本申请还提供了一种地址成分识别装置,包括:

48、获取模块,用于接收地址识别请求,获取待识别文本;

49、特征构建模块,用于对所述待识别文本进行多特征构建处理,得到对应的特征集合;其中,所述多特征构建处理包括切字处理、分词处理、词权重计算、五级地址匹配、类别词词典匹配、门址词典匹配、方位词词典匹配、地址后缀词词典匹配、标点识别、数字识别和英文识别;

50、识别模块,用于将所述特征集合输入至条件随机场模型进行中文地址成分识别,得到地址成分识别结果。

51、本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如上所述的地址成分识别方法的步骤。

52、本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的地址成分识别方法的步骤。

53、实施本专利技术实施例,具有如下有益效果:

54、如上所述,本申请提供的一种地址成分识别方法、装置、计算机设备及存储介质,其中方法包括:接收地址识别请求,获取待识别文本;对待识别文本进行多特征构建处理,得到对应的特征集合;其中,本文档来自技高网...

【技术保护点】

1.一种地址成分识别方法,其特征在于,至少包括如下步骤:

2.根据权利要求1所述的地址成分识别方法,其特征在于,所述特征集合包括所述待识别文本对应的字符特征、分词特征、词权重特征、五级地址特征、类别词特征、门址特征、方位词特征、地址后缀词特征、标点特征、数字特征和英文特征。

3.根据权利要求1所述的地址成分识别方法,其特征在于,所述切字处理,包括:

4.根据权利要求1所述的地址成分识别方法,其特征在于,所述分词处理,包括:

5.根据权利要求1所述的地址成分识别方法,其特征在于,所述词权重计算,包括:

6.根据权利要求1所述的地址成分识别方法,其特征在于,所述五级地址匹配,包括:

7.根据权利要求1所述的地址成分识别方法,其特征在于,所述类别词词典匹配,包括:

8.根据权利要求1所述的地址成分识别方法,其特征在于,所述门址词典匹配,包括:

9.根据权利要求1所述的地址成分识别方法,其特征在于,所述方位词词典匹配,包括:

10.根据权利要求1所述的地址成分识别方法,其特征在于,所述地址后缀词词典匹配,包括:

11.根据权利要求1所述的地址成分识别方法,其特征在于,所述标点识别,包括:

12.根据权利要求1所述的地址成分识别方法,其特征在于,所述数字识别,包括:

13.根据权利要求1所述的地址成分识别方法,其特征在于,所述英文识别,包括:

14.根据权利要求1所述的地址成分识别方法,其特征在于,所述将所述特征集合输入至条件随机场模型进行中文地址成分识别,得到地址成分识别结果,包括:

15.一种地址成分识别装置,其特征在于,包括:

16.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至14中任一项所述的地址成分识别方法的步骤。

17.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至14中任一项所述的地址成分识别方法的步骤。

...

【技术特征摘要】

1.一种地址成分识别方法,其特征在于,至少包括如下步骤:

2.根据权利要求1所述的地址成分识别方法,其特征在于,所述特征集合包括所述待识别文本对应的字符特征、分词特征、词权重特征、五级地址特征、类别词特征、门址特征、方位词特征、地址后缀词特征、标点特征、数字特征和英文特征。

3.根据权利要求1所述的地址成分识别方法,其特征在于,所述切字处理,包括:

4.根据权利要求1所述的地址成分识别方法,其特征在于,所述分词处理,包括:

5.根据权利要求1所述的地址成分识别方法,其特征在于,所述词权重计算,包括:

6.根据权利要求1所述的地址成分识别方法,其特征在于,所述五级地址匹配,包括:

7.根据权利要求1所述的地址成分识别方法,其特征在于,所述类别词词典匹配,包括:

8.根据权利要求1所述的地址成分识别方法,其特征在于,所述门址词典匹配,包括:

9.根据权利要求1所述的地址成分识别方法,其特征在于,所述方位词词典匹配,包括:

...

【专利技术属性】
技术研发人员:顾佳怡沈奇赵骥
申请(专利权)人:深圳依时货拉拉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1