【技术实现步骤摘要】
一种地址信息分类方法及装置
本申请涉及文本处理领域,尤其涉及一种地址信息分类方法及装置。
技术介绍
未来的人机交互数据将越来越多涉及地址信息,互联网成为不断更新的地址信息数据仓库,聚集了大量形式规范的、非规范的地址信息。而涉及地址信息的产业,对地址信息数据的需求越来越高,以便各类业务的分析、研究和决策提供支撑。因此,如何有效地从文本上下文中提取地址描述信息,并且将其准确的分类是一项必要且很强实用性的工作。现有的处理方法是首先利用基于biLSTM技术的地址信息提取方法进行地址信息的提取,然后再对提取的地址信息进行分类;但是由于biLSTM技术需要大量的精准的标注信息,如采用人工进行标注,这使得人工成本大增,且不具备可移植性。而使用机器进行标注,则会存在标注不准确或不完整等情况,导致提取结果不准确,最终得到错误的分类结果。
技术实现思路
本申请提供了一种地址信息分类方法及装置,以解决利用现有的地址分类方法,易得到错误的分类结果的问题。第一方面,本申请提供了一种地址信息分类方法,所述方法包括:提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到 ...
【技术保护点】
1.一种地址信息分类方法,其特征在于,所述方法包括:提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息,所述待分类地址信息为完整的地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别;输出每个所述待分类地址信息及对应的类别。
【技术特征摘要】
1.一种地址信息分类方法,其特征在于,所述方法包括:提取文本中所有待处理地址信息;根据每个所述待处理地址信息,确定每个所述待处理地址信息的完整度类型,所述待处理地址信息的完整度类型包括正向地址信息和负向地址信息,所述正向地址信息包括完整或部分的地址信息,所述负向地址信息包括含有其他词语的地址信息;根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息,所述待分类地址信息为完整的地址信息;利用每个所述待分类地址信息的上下文信息,对每个所述待分类地址信息进行分类,得到每个所述待分类地址信息对应的类别;输出每个所述待分类地址信息及对应的类别。2.如权利要求1所述的方法,其特征在于,所述根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息包括:如果所述待处理地址信息是正向地址信息,则从所述待处理地址信息在所述文本中的位置开始,利用第一搜索算法,得到第一目标地址信息,所述第一搜索算法为向前搜索算法或向后搜索算法;从所述第一目标地址信息在所述文本中的位置开始,利用第二搜索算法,得到待分类地址信息,其中,所述待分类地址信息为完整的地址信息,当第一搜索算法为向前搜索算法时,第二搜索算法为向后搜索算法;当第一搜索算法为向后搜索算法时,第二搜索算法为向前搜索算法。3.如权利要求1所述的方法,其特征在于,所述根据每个所述待处理地址信息的完整度类型及所述待处理地址信息在所述文本中的位置,利用向前搜索算法和向后搜索算法,得到每个所述待处理地址信息对应的待分类地址信息包括:如果所述待处理地址信息是负向地址信息,则将所述待处理地址信息进行分词处理,得到多个分词;提取多个所述分词中的任意一个地址分词,将所述地址分词确定为待处理地址信息;从所述待处理地址信息在所述文本中的位置开始,利用第一搜索算法,得到第一目标地址信息,所述第一搜索算法为向前搜索算法或向后搜索算法;从所述第一目标地址信息在所述文本中的位置开始,利用第二搜索算法,得到待分类地址信息,其中,所述待分类地址信息为完整的地址信息,当第一搜索算法为向前搜索算法时,第二搜索算法为向后搜索算法;当第一搜索算法为向后搜索算法时,第二搜索算法为向前搜索算法。4.如权利要求2或3所述的方法,其特征在于,所述从所述待处理地址信息在所述文本中的位置开始,利用第一搜索算法,得到第一目标地址信息包括:从所述待处理地址信息在所述文本中的位置开始向所述第一搜索算法对应的第一方向搜索,将相邻的一个词语与所述待处理地址信息进行合并,得到合并后的地址信息,其中,当第一搜索算法为向前搜索算法时,第一方向为向前的方向;当第一搜索算法为向后搜索算法时,第一方向为向后的方向;如果所述合并后的地址信息是正向地址信息,则将所述合并后的地址信息确定为待处理地址信息,并重复上述向第一方向搜索的步骤,直至向第一方向搜索至与所述待处理地址信息相邻的预设停止符号为止;如果所述合并后的地址信息为负向地址信息,则记录判定为负向地址信息的连续次数,将所述合并后的地址信息确定为待处理地址信息,并重复上述向第一方向搜索的步骤,直至判定为负向地址信息的连续次数等于预设连续次数,或者向第一方向搜索至与所述待处理地址信息相邻的预设停止符号为止;将最后一次判定为正向地址信息的待处理地址信息确定为第一目标地址信息。5.如权利要求2或3所述的方法,其特征在于,所述从所述第一目标地址信息在所述文本中的位置开始,利用第二搜索算法,得到待分类地址信息包括:从所述第一目标地址信息在所述文本中的位置开始向所述第二搜索算法对应的第二方向搜索,将相邻的一个词语与所述待处理地址信息进行合并,得到合并后的地址信息,其中,当第二搜索算法为向前搜索算法时,第二方向为向前的方向;当第二搜索算法为向后搜索算法时,第二方向为向后的方向;如果所述合并后的地址信息是正向地址信息,则将所述合并后的地址信息确定为第一目标地址信息,并重复上述向第二方向搜索的步骤,直至向第二方向搜索至与所述待处理地址信息相邻的预设停止符号为止;如果所述合并后的地址信息为负向地址信息,...
【专利技术属性】
技术研发人员:李胜,单培,李士勇,张瑞飞,李广刚,
申请(专利权)人:北京神州泰岳软件股份有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。