地址切分识别方法技术

技术编号:16482938 阅读:34 留言:0更新日期:2017-10-31 15:32
本发明专利技术提供一种地址切分识别方法,所述方法包括检测到输入的地址字段中包括回声型字段;对所述地址字段进行识别切分以获取所述回声型字段;调用与所述回声型字段对应的确定有穷自动机(Deterministic Finite Automaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。本发明专利技术提供的地址切分识别方法通过调用与回声型字段对应的确定有穷自动机模型对回声型字段进行识别,实现了对包括回声型字段的地址字段的正确识别。

Address segmentation recognition method

The invention provides an address segmentation recognition method, the method includes the detection to the address field in the input field including echo recognition; segmentation on the address field to obtain the echo type field; determine the call and the echo type field corresponding to the finite automaton (Deterministic Finite Automaton, referred to as DFA) to identify the echo type field model, get the first identification result; second recognition results identified other fields of the first comprehensive recognition result and the identification of the address field segmentation to complete the recognition result, the address field. Address segmentation and recognition method provided by the invention by determining the call and the echo field corresponding to the finite automaton model to identify the echo field, to achieve the correct identification of the address field including the echo type field.

【技术实现步骤摘要】
地址切分识别方法
本申请涉及地址识别
,具体涉及一种地址切分识别方法。
技术介绍
目前常用的分词识别方法主要包括三种类型:1、基于基础数据的匹配方法;2、基于语法的切分方法;3、基于统计数据的切分方法。而对于地址识别而言,通常采用的是上述的第一类方法和第三类方法,而很少采用上述的第二类方法,因为地址字段通常全部由名词组成,并不构成一句正常语法的中文语句。然而上述几类方法在特殊情境或特殊模式中对于地址字段的切分并不奏效,例如在一个虚拟现实的场景中:在一个青山绿水的山谷场景中,产生了一个回声型的地址字段“阿阿阿里里里山山山山山……”,地址字段中的叠字是由于虚拟的山谷场景较为空旷形成了回声而产生的。此时,对于该回声型的地址字段,现有的分词识别方法是无法识别出“阿里山”的,由于回声型字段中叠字出现的次数可能是不确定的,不可能将所有的可能情况都配置成为基础匹配数据。因此,对于上述类型的回声型字段,需要采用一种新的方法来进行识别。此外,对于上述回声型字段,还有可能出现类似于“阿阿里里阿里阿山里山山山山……”这样的重复穿插型的字段,现有的分词识别方法同样无法对其进行正确的识别。
技术实现思路
鉴于现有技术中的上述缺陷或不足,期望提供一种能正确识别包括回声型字段的地址字段的地址切分识别方法。本专利技术提供一种地址切分识别方法,所述方法包括:检测到输入的地址字段中包括回声型字段;对所述地址字段进行识别切分以获取所述回声型字段;调用与所述回声型字段对应的确定有穷自动机(DeterministicFiniteAutomaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。本专利技术诸多实施例提供的地址切分识别方法通过调用与回声型字段对应的确定有穷自动机模型对回声型字段进行识别,实现了对包括回声型字段的地址字段的正确识别;本专利技术一些实施例提供的地址切分识别方法进一步通过在调用DFA模型进行识别之前或之后生成与回声型字段对应的确定有穷自动机模型,有效地提高了系统的识别效率;本专利技术一些实施例提供的地址切分识别方法进一步通过对用于生成确定有穷自动机模型的地名按照地域范围进行分类,提高了识别的效率;本专利技术一些实施例提供的地址切分识别方法进一步通过根据正常字段的识别结果对地域范围进行排序,提高了识别的效率;本专利技术一些实施例提供的地址切分识别方法进一步通过根据预存的地址库判断回声型字段是否被误判的正常字段,节省了系统的计算资源,从而提升了识别的效率。附图说明通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本申请的其它特征、目的和优点将会变得更明显:图1为本专利技术一实施例中地址切分识别方法的流程图。图2为本专利技术一优选实施例中地址切分识别方法的流程图。图3为图2所示的地址切分识别方法中步骤S50的流程图。图4为图3所示的步骤S57中根据正则表达式G1和G2生成的语法树的示意图。图5为图4所示语法树所转化的确定有穷自动机模型。图6为图3所示步骤S50的一种优选实施方式的流程图。图7为图3所示步骤S50的另一种优选实施方式的流程图。图8为图7所示步骤S54的优选实施方式的流程图。图9为本专利技术一优选实施例中地址切分识别方法的流程图。具体实施方式下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅仅用于解释相关专利技术,而非对该专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与专利技术相关的部分。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。图1为本专利技术一实施例中地址切分识别方法的流程图。如图1所示,在本实施例中,本专利技术提供的地址切分识别方法包括:S10:检测到输入的地址字段中包括回声型字段;S30:对所述地址字段进行识别切分以获取所述回声型字段;S70:调用与所述回声型字段对应的确定有穷自动机(DeterministicFiniteAutomaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;S90:综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。具体地,在本实施例中,所述回声型字段指对于表示地址的名词通过类似于回声的形式所形成的包括叠字型和/或重复穿插型的字段。例如对于名词“广东”所形成的包括叠字型的字段“广广广东东”等,包括重复穿插型的字段“广东广东”、“东广东”等,或同时包括叠字型和重复穿插型的字段“广广东东广东东东”等。在更多实施例中,可以根据实际需求,将所述回声型字段定义为至少包括两组叠字,或至少包括三个叠字等具有针对性的限定范围,只要该字段包括叠字型和/或重复穿插型的字段,即可实现同样的技术效果。以输入字段“广广广东东省州广州市XX区XX路XX号”为例:在步骤S10中,检测到输入的地址字段中同时包括了叠字型的回声型字段和重复穿插型的回声型字段。在步骤S30中,对上述地址字段进行识别切分,得到了叠字型的回声型字段“广广广东东”和重复穿插型的回声型字段“州广州”。在步骤S70中,调用“广”字开头的DFA模型对字段“广广广东东”进行识别,得到识别结果“广东”;调用“州”字开头的DFA模型对字段“州广州”进行识别,未得到识别结果,再调用“广”字开头的DFA模型对字段“州广州”进行识别,得到识别结果“广州”。具体地,在本实施例中,所调用的各DFA模型已根据系统的地址库预生成并预存在系统中。在更多实施例中,所调用的各DFA模型可以根据实际需求存储在云服务器中、远程服务器中,或实时根据系统的地址库或云服务器等处的地址库实时生成。在步骤S90中,综合上述识别结果“广东”、“广州”,和对字段“XX区XX路XX号”进行识别得到的识别结果,得到对于地址字段“广广广东东省州广州市XX区XX路XX号”的完整识别结果。上述实施例通过调用与回声型字段对应的确定有穷自动机模型对回声型字段进行识别,实现了对包括回声型字段的地址字段的正确识别。图2为本专利技术一优选实施例中地址切分识别方法的流程图。如图2所示,在一优选实施例中,步骤S70之前或之后还包括:S50:生成与所述回声型字段对应的确定有穷自动机模型。具体地,在本实施例的一种实施方式中,系统或云服务器中不存储任何DFA模型,当步骤S30通过对所述地址字段进行识别切分获得回声型字段后,通过步骤S50实时生成对应的DFA模型。在本实施例的另一种实施方式中,系统或云服务器中存储常用的DFA模型,当步骤S70调用所存储的常用的DFA模型对所述回声型字段所进行的识别失败时,通过步骤S50根据系统或云服务器等处存储的地址库实时生成与所述回声型字段对应的DFA模型,再返回步骤S70调用实时生成的DFA模型进行识别。上述实施例进一步通过在调用DFA模型进行识别之前或之后生成与回声型字段对应的确定有穷自动机模型,有效地提高了系统的识别效率。图3为图2所示的地址切分识别方法中步骤S50的流程图。如图3所示,在一优选实施例中,步骤S50包括:S51:分析所述回声型字段,获取关键本文档来自技高网...
地址切分识别方法

【技术保护点】
一种地址切分识别方法,其特征在于,所述方法包括:检测到输入的地址字段中包括回声型字段;对所述地址字段进行识别切分以获取所述回声型字段;调用与所述回声型字段对应的确定有穷自动机(Deterministic Finite Automaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。

【技术特征摘要】
1.一种地址切分识别方法,其特征在于,所述方法包括:检测到输入的地址字段中包括回声型字段;对所述地址字段进行识别切分以获取所述回声型字段;调用与所述回声型字段对应的确定有穷自动机(DeterministicFiniteAutomaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。2.根据权利要求1所述的地址切分识别方法,其特征在于,所述调用与所述回声型字段对应的确定有穷自动机模型对所述回声型字段进行识别,得到第一识别结果之前或之后还包括:生成与所述回声型字段对应的确定有穷自动机模型。3.根据权利要求2所述的地址切分识别方法,其特征在于,所述生成与所述回声型字段对应的确定有穷自动机模型包括:分析所述回声型字段,获取关键字;根据所述关键字调用与所述关键字相关的若干地名;分别根据所述若干地名生成若干正则表达式;根据所述若干正则表达式生成至少一个语法树;将所述语法树转化为确定有穷自动机模型。4.根据权利要求3所述的地址切分识别方法,其特征在于...

【专利技术属性】
技术研发人员:周游
申请(专利权)人:顺丰科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1