一种地址信息分类方法及装置制造方法及图纸

技术编号:20363266 阅读:16 留言:0更新日期:2019-02-16 16:42
本申请提供了一种地址信息分类方法及装置,该方法提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息,所述待分类地址信息为完整的地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别。因此,本申请无论提取的地址信息是否完整,最终均可得到完整的地址信息并进行准确分类,提高分类结果的准确度。

【技术实现步骤摘要】
一种地址信息分类方法及装置
本申请涉及文本处理领域,尤其涉及一种地址信息分类方法及装置。
技术介绍
未来的人机交互数据将越来越多涉及地址信息,互联网成为不断更新的地址信息数据仓库,聚集了大量形式规范的、非规范的地址信息。而涉及地址信息的产业,对地址信息数据的需求越来越高,以便各类业务的分析、研究和决策提供支撑。因此,如何有效地从文本上下文中提取地址描述信息,并且将其准确的分类是一项必要且很强实用性的工作。现有的处理方法是首先利用基于biLSTM技术的地址信息提取方法进行地址信息的提取,然后再对提取的地址信息进行分类;但是由于biLSTM技术需要大量的精准的标注信息,如采用人工进行标注,这使得人工成本大增,且不具备可移植性。而使用机器进行标注,则会存在标注不准确或不完整等情况,导致提取结果不准确,最终得到错误的分类结果。
技术实现思路
本申请提供了一种地址信息分类方法及装置,以解决利用现有的地址分类方法,易得到错误的分类结果的问题。第一方面,本申请提供了一种地址信息分类方法,所述方法包括:提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别;输出每个所述待分类地址信息及对应的类别。第二方面,本申请提供了一种地址信息分类装置,所述装置包括:提取模块,用于提取文本中所有待处理地址信息;确定模块,用于根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;待分类地址确定模块,用于根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息;分类模块,用于利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别;输出模块,用于输出每个所述待分类地址信息及对应的类别。由以上技术方案可知,本申请提供了一种地址信息分类方法及装置,该方法首先提取文本中的地址信息作为待处理地址信息,根据待处理地址信息的完整度及其在文本中的位置,利用向前搜索算法和向后搜索算法,得到完整的待分类地址,然后利用该待分类地址的上下文信息,对该待分类地址进行分类处理。因此,本申请无论提取的地址信息是否完整,最终均可得到完整的地址信息并进行准确分类,提高分类结果的准确度。附图说明为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。图1为本申请提供的一种地址信息分类方法的一个实施例的流程图;图2为本申请提供的一种地址信息分类方法的另一个实施例的流程图;图3为本申请提供的一种地址信息分类装置的的结构示意图;图4为待分类地址确定模块的实施例的一个实施例的结构示意图。图5为待分类地址确定模块的实施例的另一个实施例的结构示意图。图6为第一搜索算法单元的结构示意图。具体实施方式第一方面,参见图1,本申请实施例提供了一种地址信息分类方法,所述方法包括如下步骤:步骤101:提取文本中所有待处理地址信息。对文本中的待处理地址信息的提取可利用地址信息提取模型完成。具体地,利用汉语分词系统对足够的训练文本逐条进行分词及词性标注,然后利用bilSTM模型对训练文本进行训练,从而生成地址提取模型。工作人员可利用该模型对文本中的地址信息进行提取。步骤102:根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息。步骤103:根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息,所述待分类地址信息为完整的地址信息。利用向前搜索算法和向后搜索算法的结合,可准确划分出待处理地址信息的边界,可提高后续数据处理的准确性和完整性。步骤104:利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别。步骤105:输出每个所述待分类地址信息及对应的类别。由以上技术方案可知,本申请提供了一种地址信息分类方法,该方法首先提取文本中的地址信息作为待处理地址信息,根据待处理地址信息的完整度及其在文本中的位置,利用向前搜索算法和向后搜索算法,得到完整的待分类地址,然后利用该待分类地址的上下文信息,对该待分类地址进行分类处理。因此,本申请无论提取的地址信息是否完整,最终均可得到完整的地址信息并进行准确分类,提高分类结果的准确度。参见图2,在本申请另一实施例提供的一种地址信息分类方法,包括如下步骤:步骤201:提取文本中所有待处理地址信息。对文本中的待处理地址信息的提取可利用地址信息提取模型完成。具体地,利用汉语分词系统对足够的训练文本逐条进行分词及词性标注,然后利用bilSTM模型对训练文本进行训练,从而生成地址提取模型。工作人员可利用该模型对文本中的地址信息进行提取。步骤202:根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息。利用地址信息提取模型提取出来的地址信息可能是在文本中的完整的地址信息,或是部分地址信息,或是包含其他词语的地址信息。例如,文本为“某某(户籍:aa省bb市cc区dd街道e小区x栋x单元x号,身份证号:xxxxxxxxxxxxx)报案称在AA省BB市CC区G镇H小区x栋x单元x号被盗,门锁完好,家中保险柜被撬”,假设由地址信息模型提取出来的结果为“aa省bb市cc区dd街道e小区x栋x单元x号”和“CC区G镇H小区”,则“aa省bb市cc区dd街道e小区x栋x单元x号”为完整的地址信息,即正向地址信息;“CC区G镇H小区”为部分地址信息,也属于正向地址信息。如果提取结果为“x单元x号被盗”,则“x单元x号被盗”中包含“被盗”一词,则为负向地址信息。步骤203:如果所述待处理地址信息是正向地址信息,则从所述待处理地址信息在所述文本中的位置开始向所述第一搜索算法对应的第一方向搜索,将相邻的一个词语与所述待处理地址信息进行合并,得到合并后的地址信息,其中,当第一搜索算法为向前搜索算法时,第一方向为向前的方向;当第一本文档来自技高网...

【技术保护点】
1.一种地址信息分类方法,其特征在于,所述方法包括:提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息,所述待分类地址信息为完整的地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别;输出每个所述待分类地址信息及对应的类别。

【技术特征摘要】
1.一种地址信息分类方法,其特征在于,所述方法包括:提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息,所述待分类地址信息为完整的地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别;输出每个所述待分类地址信息及对应的类别。2.如权利要求1所述的方法,其特征在于,所述根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息包括:如果所述待处理地址信息是正向地址信息,则从所述待处理地址信息在所述文本中的位置开始,利用第一搜索算法,得到第一目标地址信息,所述第一搜索算法为向前搜索算法或向后搜索算法;从所述第一目标地址信息在所述文本中的位置开始,利用第二搜索算法,得到待分类地址信息,其中,所述待分类地址信息为完整的地址信息,当第一搜索算法为向前搜索算法时,第二搜索算法为向后搜索算法;当第一搜索算法为向后搜索算法时,第二搜索算法为向前搜索算法。3.如权利要求1所述的方法,其特征在于,所述根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息包括:如果所述待处理地址信息是负向地址信息,则将所述待处理地址信息进行分词处理,得到多个分词;提取多个所述分词中的任意一个地址分词,将所述地址分词确定为待处理地址信息;从所述待处理地址信息在所述文本中的位置开始,利用第一搜索算法,得到第一目标地址信息,所述第一搜索算法为向前搜索算法或向后搜索算法;从所述第一目标地址信息在所述文本中的位置开始,利用第二搜索算法,得到待分类地址信息,其中,所述待分类地址信息为完整的地址信息,当第一搜索算法为向前搜索算法时,第二搜索算法为向后搜索算法;当第一搜索算法为向后搜索算法时,第二搜索算法为向前搜索算法。4.如权利要求2或3所述的方法,其特征在于,所述从所述待处理地址信息在所述文本中的位置开始,利用第一搜索算法,得到第一目标地址信息包括:从所述待处理地址信息在所述文本中的位置开始向所述第一搜索算法对应的第一方向搜索,将相邻的一个词语与所述待处理地址信息进行合并,得到合并后的地址信息,其中,当第一搜索算法为向前搜索算法时,第一方向为向前的方向;当第一搜索算法为向后搜索算法时,第一方向为向后的方向;如果所述合并后的地址信息是正向地址信息,则将所述合并后的地址信息确定为待处理地址信息,并重复上述向第一方向搜索的步骤,直至向第一方向搜索至与所述待处理地址信息相邻的预设停止符号为止;如果所述合并后的地址信息为负向地址信息,则记录判定为负向地址信息的连续次数,将所述合并后的地址信息确定为待处理地址信息,并重复上述向第一方向搜索的步骤,直至判定为负向地址信息的连续次数等于预设连续次数,或者向第一方向搜索至与所述待处理地址信息相邻的预设停止符号为止;将最后一次判定为正向地址信息的待处理地址信息确定为第一目标地址信息。5.如权利要求2或3所述的方法,其特征在于,所述从所述第一目标地址信息在所述文本中的位置开始,利用第二搜索算法,得到待分类地址信息包括:从所述第一目标地址信息在所述文本中的位置开始向所述第二搜索算法对应的第二方向搜索,将相邻的一个词语与所述待处理地址信息进行合并,得到合并后的地址信息,其中,当第二搜索算法为向前搜索算法时,第二方向为向前的方向;当第二搜索算法为向后搜索算法时,第二方向为向后的方向;如果所述合并后的地址信息是正向地址信息,则将所述合并后的地址信息确定为第一目标地址信息,并重复上述向第二方向搜索的步骤,直至向第二方向搜索至与所述待处理地址信息相邻的预设停止符号为止;如果所述合并后的地址信息为负向地址信息,...

【专利技术属性】
技术研发人员:李胜单培李士勇张瑞飞李广刚
申请(专利权)人:北京神州泰岳软件股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1