The invention provides an address segmentation recognition method, the method includes the detection to the address field in the input field including echo recognition; segmentation on the address field to obtain the echo type field; determine the call and the echo type field corresponding to the finite automaton (Deterministic Finite Automaton, referred to as DFA) to identify the echo type field model, get the first identification result; second recognition results identified other fields of the first comprehensive recognition result and the identification of the address field segmentation to complete the recognition result, the address field. Address segmentation and recognition method provided by the invention by determining the call and the echo field corresponding to the finite automaton model to identify the echo field, to achieve the correct identification of the address field including the echo type field.
【技术实现步骤摘要】
地址切分识别方法
本申请涉及地址识别
,具体涉及一种地址切分识别方法。
技术介绍
目前常用的分词识别方法主要包括三种类型:1、基于基础数据的匹配方法;2、基于语法的切分方法;3、基于统计数据的切分方法。而对于地址识别而言,通常采用的是上述的第一类方法和第三类方法,而很少采用上述的第二类方法,因为地址字段通常全部由名词组成,并不构成一句正常语法的中文语句。然而上述几类方法在特殊情境或特殊模式中对于地址字段的切分并不奏效,例如在一个虚拟现实的场景中:在一个青山绿水的山谷场景中,产生了一个回声型的地址字段“阿阿阿里里里山山山山山……”,地址字段中的叠字是由于虚拟的山谷场景较为空旷形成了回声而产生的。此时,对于该回声型的地址字段,现有的分词识别方法是无法识别出“阿里山”的,由于回声型字段中叠字出现的次数可能是不确定的,不可能将所有的可能情况都配置成为基础匹配数据。因此,对于上述类型的回声型字段,需要采用一种新的方法来进行识别。此外,对于上述回声型字段,还有可能出现类似于“阿阿里里阿里阿山里山山山山……”这样的重复穿插型的字段,现有的分词识别方法同样无法对其进行正确的 ...
【技术保护点】
一种地址切分识别方法,其特征在于,所述方法包括:检测到输入的地址字段中包括回声型字段;对所述地址字段进行识别切分以获取所述回声型字段;调用与所述回声型字段对应的确定有穷自动机(Deterministic Finite Automaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。
【技术特征摘要】
1.一种地址切分识别方法,其特征在于,所述方法包括:检测到输入的地址字段中包括回声型字段;对所述地址字段进行识别切分以获取所述回声型字段;调用与所述回声型字段对应的确定有穷自动机(DeterministicFiniteAutomaton,简称DFA)模型对所述回声型字段进行识别,得到第一识别结果;综合所述第一识别结果和所述地址字段识别切分所获取的其它字段进行识别得到的第二识别结果,得到所述地址字段的完整识别结果。2.根据权利要求1所述的地址切分识别方法,其特征在于,所述调用与所述回声型字段对应的确定有穷自动机模型对所述回声型字段进行识别,得到第一识别结果之前或之后还包括:生成与所述回声型字段对应的确定有穷自动机模型。3.根据权利要求2所述的地址切分识别方法,其特征在于,所述生成与所述回声型字段对应的确定有穷自动机模型包括:分析所述回声型字段,获取关键字;根据所述关键字调用与所述关键字相关的若干地名;分别根据所述若干地名生成若干正则表达式;根据所述若干正则表达式生成至少一个语法树;将所述语法树转化为确定有穷自动机模型。4.根据权利要求3所述的地址切分识别方法,其特征在于...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。