The invention relates to a multi language word segmentation method and device based on the full text retrieval of a vehicle navigator. The method includes the segmentation of the input text according to the punctuation mark and the one or more subtext, judging whether there is only subtext containing English letters or numbers, and if it is, it contains only English letters or numbers. The subtext of the word is divided and output two times as the first subtext and the ambiguity judgment. Otherwise, the other subtext except the first subtext is divided into second subtext. According to the language coding recognition mechanism, the second subtext is cut, and the multiple strings that contain only the single language are obtained; and the forward maximum matching is used. The method divides the multiple strings and obtains the final word segmentation results and outputs them. When the full text retrieval is used on the vehicle navigator, the text of the user input is participle, without relying on the external word library, and the text of the mixed string contained by the user is cut into the specific word which can be used for the full text retrieval.
【技术实现步骤摘要】
一种基于车载导航仪全文检索的多语言分词方法及装置
本专利技术涉及车载导航及文字检索
,具体涉及一种基于车载导航仪全文检索的多语言分词方法及装置。
技术介绍
随着检索技术发展以及输入法发展,传统车载导航系统基于NVC的逐字检索方案不管是从用户体验还是检索效率上,已经不能满足当下人们对导航产品的需求。而全文检索(Fulltextsearch)技术凭借其高效的检索效率,应用领域也是越来越广泛。因此在车载导航仪上使用全文检索技术也将成为一种趋势。但在使用全文检索技术过程中,分词技术就是其核心技术之一。分词(Token),就是借助计算机自动给短句或长句文本切分成一个个分词,并使其能够正确的表达其原来的意思。只要是与语言理解相关的领域,都是需要用到分词技术的。各个国家与地区的语言语法、书写习惯等因素的不一致,导致了它们需要用不同的分词方法。对于西方屈折语的文本单词与单词之间存在一个空格指示词的边界,根据空格和符号可以轻易分词;但对于那些孤立语和黏着语(如中文、韩语、藏语等)的文本,每个词之间没有任何标志指示词的边界,且如果以字为单位来切分文本,不但会带来巨大的空间消耗, ...
【技术保护点】
一种基于车载导航仪全文检索的多语言分词方法,其特征在于,包括以下步骤:步骤1,对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3;步骤3,根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;步骤4,利用正向最大匹配算法对所述 ...
【技术特征摘要】
1.一种基于车载导航仪全文检索的多语言分词方法,其特征在于,包括以下步骤:步骤1,对输入文本进行初步处理,根据文本中的标点符号对输入文本进行切分,若无标点符号则不切分,得到一个或多个子文本;步骤2,判断所述一个或多个子文本中是否存在仅包含英文字母或者仅包含英文字母和数字的子文本,如果是则将所述仅包含英文字母或者仅包含英文字母和数字的子文本作为第一子文本并对所述第一子文本做歧义判断进行二次切分并输出,否则将除所述第一子文本外的其他子文本作为第二子文本并执行步骤3;步骤3,根据语言编码识别机制,将所述第二子文本切分,得到仅包含单一语种的多个字符串;步骤4,利用正向最大匹配算法对所述多个字符串进行切分得到最终分词结果并输出。2.根据权利要求1所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,所述步骤1包括:根据UNICODE编码规则,检索输入文本中的标点符号以及空格符号,并将所述标点符号和空格符号构造成分隔符,将所述输入文本分割成多个子文本,若输入文本中不存在标点符号以及空格符号则将所述输入文本作为一个独立的子文本。3.根据权利要求1所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,步骤2中所述的对所述第一子文本做歧义判断进行二次切分,得到多个字符串,包括:获取车载导航仪收录的检索数据的言语种别,并分析所述言语种别中是否含有西方屈折语种别或汉语拼音;若车载导航仪支持西方屈折语检索,则对所述第一子文本不在进一步分词;若车载导航仪支持汉语拼音检索,则根据汉语拼音规则对所述第一子文本进行分词;将基于西方屈折语检索的分词结果与基于汉语拼音规则的分析结果组合成分词结果集并展示给用户;根据用户的选择信息确定分词方案并输出。4.根据权利要求3所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,所述步骤3包括:通过语言编码识别机制识别第二子文本中所包含的语种信息,根据所述语种信息,将所述第二子文本切分成多个连续的仅包含单一语种的字符串。5.根据权利要求4所述一种基于车载导航仪全文检索的多语言分词方法,其特征在于,所述步骤4包括:设置最小切分阈值,若所述字符串中字符数量不大于所述最小切分阈值,则对该字符串不做切分,否则,从左到右将切分文本中的几个连续字符按照正向最大匹配算法进行切分,针对切分过程中可能产生的多个切分方案,按照以下原则进行筛选确认并输出:1)切分后的字符串长度越长,优先级越高;2)切分后的字符串个数越少...
【专利技术属性】
技术研发人员:罗跃军,姜子奇,周文昉,
申请(专利权)人:武汉中海庭数据技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。