System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种地址识别的方法和装置制造方法及图纸_技高网

一种地址识别的方法和装置制造方法及图纸

技术编号:40833095 阅读:2 留言:0更新日期:2024-04-01 14:56
本发明专利技术公开了一种地址识别的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:将待识别地址输入到预先训练的地址实体识别模型中,依次识别每个地址实体,待识别地址包括不少于一个地址实体,地址实体识别模型是基于设定大小的贝叶斯窗口内的上下文信息进行训练得到的;将每个地址实体的识别结果拼接得到待识别地址的识别结果。该实施方式可以更有效、更准确地识别地址实体,从而可以便于识别地址冲突问题。

【技术实现步骤摘要】

本专利技术涉及计算机,尤其涉及一种地址识别的方法和装置


技术介绍

1、目前对于实体识别已经有了大量的研究,并且通过对海量数据的上下文语义学习和预训练生成的语义识别模型,可以对实体做出准确的识别和区分。但是,现有的实体识别技术,大多集中在如何学习上下文语义,结合富含语义的上下文信息来进行实体识别,而地址更像是多个实体的顺序组合,一般情况下只与邻近的实体相关,与很长的上下文之间并没有依赖关系。因此,将现有的实体识别模型应用于地址实体识别的场景中时,识别结果的有效性和准确性都不高,且识别结果很可能会因存在地址冲突而导致识别结果无效。另外,为了进行地址识别需要大量的标注样本,人工标注成本高,当需求发生变化时标注样本无法复用,且会存在oov(新字词,未在词典中出现的字词)识别错误的情况。


技术实现思路

1、有鉴于此,本专利技术实施例提供一种地址识别的方法和装置,能够更有效、更准确地识别地址实体,从而可以便于识别地址冲突问题。本专利技术利用少量的人工标注的有标签样本,自动化生成大量的训练样本,可以根据需求,任意改变标签类型,任意增减数据内容,减少了人工成本。另外,本专利技术还可以为训练样本添加标注信息,以将需要进行识别结果转换的地址实体进行单独标注,从而快速解决生产环境中出现的新字词无法识别的问题。

2、为实现上述目的,根据本专利技术实施例的一个方面,提供了一种地址识别的方法,包括:

3、将待识别地址输入到预先训练的地址实体识别模型中,依次识别每个地址实体,所述待识别地址包括不少于一个地址实体,所述地址实体识别模型是基于设定大小的贝叶斯窗口内的上下文信息进行训练得到的;

4、将每个地址实体的识别结果拼接得到所述待识别地址的识别结果。

5、可选地,所述地址实体识别模型是通过以下方式训练得到的:获取训练样本,所述训练样本包括地址数据和所述地址数据的标签;对所述地址数据进行特征提取得到入参向量,对所述标签进行编码得到标签序列;对于所述地址数据中的每个字,结合所述字对应的贝叶斯窗口内的上下文信息和所述入参向量,计算所述字的语义表达向量;将所述语义表达向量输入至自然语言处理模型,得到所述字对应的输出标签;计算所述标签序列中所述字的标签和所述输出标签的均方误差,对所述均方误差进行反向传播并求梯度,利用梯度下降法优化模型参数,以得到所述地址实体识别模型。

6、可选地,在将待识别地址输入到预先训练的地址实体识别模型中之前,还包括:根据预设的标注词典为所述待识别地址添加实体标注,所述标注词典用于保存需要进行识别结果转换的地址实体和转换后的识别结果的映射关系;将待识别地址输入到预先训练的地址实体识别模型中,包括:将待识别地址和所述待识别地址的实体标注输入到预先训练的地址实体识别模型中。

7、可选地,所述训练样本还包括所述地址数据的实体标注;对所述地址数据进行特征提取得到入参向量,包括:对所述地址数据进行特征提取得到文本向量,对所述实体标注进行特征提取得到标注向量;将所述文本向量和所述标注向量合并得到所述入参向量。

8、可选地,对所述地址数据进行特征提取得到文本向量,包括:对所述地址数据进行逐字特征提取得到第一文本向量;对所述地址数据进行双字特征提取得到第二文本向量;将所述第一文本向量和所述第二文本向量进行拼接得到所述文本向量。

9、可选地,所述训练样本是通过以下方式生成的:获取预设的有标签样本,计算所述有标签样本的各个标签对应的状态转移概率;从初始状态对应的标签开始,根据各个标签的状态转移概率,依次得到下一个标签,并根据所述下一个标签的每个实体候选词的发射概率得到所述下一个标签的地址实体,直至结尾状态对应的标签;在各个标签对应的地址实体之后随机添加特殊字符生成第一地址实体;将各个标签对应的第一地址实体进行拼接,并使用所述有标签样本的标签进行打标得到训练样本。

10、可选地,在计算所述有标签样本的各个标签对应的状态转移概率之后,还包括:通过引入高斯随机因子,将状态转移概率为0的标签的状态转移概率设置为不为0的随机值。

11、可选地,所述实体候选词是基于设定的随机条件,在每个标签的预设实体候选词中添加或替换随机字生成的。

12、可选地,所述待识别地址的识别结果包括行政区划实体和不少于一个非行政区划的区域实体;在得到所述待识别地址的识别结果之后,还包括:根据行政区划级联关系对所述行政区划实体进行级联关系对比,判断是否存在行政区划冲突;若是,则所述识别结果存在地址冲突;否则,将所述行政区划实体分别与每个非行政区划的区域实体进行拼接,构建每个非行政区划的区域实体对应的区域地址,并根据每个非行政区划的区域实体对应的区域地址判断所述识别结果是否存在地址冲突。

13、可选地,根据每个非行政区划的区域实体对应的区域地址判断所述识别结果是否存在地址冲突,包括:对每个所述区域地址进行地理编码,得到经纬度坐标;对每个所述经纬度坐标进行逆地理编码得到文本地址;对每个所述文本地址,分别将所述文本地址与每个所述区域地址进行相似度比较;若存在相似度满足设定阈值的文本地址和区域地址,则所述识别结果不存在地址冲突;否则,所述识别结果存在地址冲突。

14、可选地,在根据行政区划级联关系对所述行政区划实体进行级联关系对比之前,还包括:使用行政区划词语标准化字典,对所述行政区划实体进行词统一处理。

15、根据本专利技术实施例的另一方面,提供了一种地址识别的装置,包括:

16、实体识别模块,用于将待识别地址输入到预先训练的地址实体识别模型中,依次识别每个地址实体,所述待识别地址包括不少于一个地址实体,所述地址实体识别模型是基于设定大小的贝叶斯窗口内的上下文信息进行训练得到的;

17、结果拼接模块,用于将每个地址实体的识别结果拼接得到所述待识别地址的识别结果。

18、根据本专利技术实施例的又一方面,提供了一种地址识别的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术实施例所提供的地址识别的方法。

19、根据本专利技术实施例的再一方面,提供了一种计算机可读介质,其上存储有计算机程序,所述程序被处理器执行时实现本专利技术实施例所提供的地址识别的方法。

20、上述专利技术中的一个实施例具有如下优点或有益效果:通过将待识别地址输入到预先训练的地址实体识别模型中,依次识别每个地址实体,待识别地址包括不少于一个地址实体,地址实体识别模型是基于设定大小的贝叶斯窗口内的上下文信息进行训练得到的;将每个地址实体的识别结果拼接得到待识别地址的识别结果的技术方案,摒弃了复杂的模型和长距离语义学习,采用贝叶斯窗口,针对地址场景,只学习近距离上下文联系,可以更有效、更准确地识别地址实体,从而可以便于识别地址冲突问题。本专利技术利用少量的人工标注的有标签样本,自动化生成大量的训练样本,可以根据需求,任意改变标签类型,任意增减数据内本文档来自技高网...

【技术保护点】

1.一种地址识别的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述地址实体识别模型是通过以下方式训练得到的:

3.根据权利要求1或2所述的方法,其特征在于,在将待识别地址输入到预先训练的地址实体识别模型中之前,还包括:

4.根据权利要求3所述的方法,其特征在于,所述训练样本还包括所述地址数据的实体标注;

5.根据权利要求4所述的方法,其特征在于,对所述地址数据进行特征提取得到文本向量,包括:

6.根据权利要求2所述的方法,其特征在于,所述训练样本是通过以下方式生成的:

7.根据权利要求6所述的方法,其特征在于,在计算所述有标签样本的各个标签对应的状态转移概率之后,还包括:

8.根据权利要求6所述的方法,其特征在于,所述实体候选词是基于设定的随机条件,在每个标签的预设实体候选词中添加或替换随机字生成的。

9.根据权利要求1所述的方法,其特征在于,所述待识别地址的识别结果包括行政区划实体和不少于一个非行政区划的区域实体;

10.根据权利要求9所述的方法,其特征在于,根据每个非行政区划的区域实体对应的区域地址判断所述识别结果是否存在地址冲突,包括:

11.根据权利要求9所述的方法,其特征在于,在根据行政区划级联关系对所述行政区划实体进行级联关系对比之前,还包括:

12.一种地址识别的装置,其特征在于,包括:

13.一种地址识别的电子设备,其特征在于,包括:

14.一种计算机可读介质,其上存储有计算机程序,其特征在于,所述程序被处理器执行时实现如权利要求1-11中任一所述的方法。

...

【技术特征摘要】

1.一种地址识别的方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述地址实体识别模型是通过以下方式训练得到的:

3.根据权利要求1或2所述的方法,其特征在于,在将待识别地址输入到预先训练的地址实体识别模型中之前,还包括:

4.根据权利要求3所述的方法,其特征在于,所述训练样本还包括所述地址数据的实体标注;

5.根据权利要求4所述的方法,其特征在于,对所述地址数据进行特征提取得到文本向量,包括:

6.根据权利要求2所述的方法,其特征在于,所述训练样本是通过以下方式生成的:

7.根据权利要求6所述的方法,其特征在于,在计算所述有标签样本的各个标签对应的状态转移概率之后,还包括:

8.根据权利要求6所述的方法,其特征在于,所述实...

【专利技术属性】
技术研发人员:叶春力
申请(专利权)人:北京京东振世信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1