【技术实现步骤摘要】
本专利技术涉及文本分割,更具体地讲,涉及对文本分割的语言进行选择。
技术介绍
已经存在了试图解译表示文本的数据的文本处理方法和系统。在接收到没有指示单词或其它分割段(token)的分隔符的、由字符串组成的文本时,进行文本处理更加困难。当使用现有方法和系统处理这种字符串时,为了解译字符串,可以将字符分割为分割段。分割段可以是单词、首字母缩写、缩略语、适当名称、地理名称、股票市场交易符号或其它分割段。通常,可以使用现有的方法和系统,将字符串分割为分割字符串的多个组合。在对文本进行分割时选择使用正确的语言可以产生更加有意义的结果。
技术实现思路
本专利技术的实施例包括选择用于文本分割的语言的方法和系统。本专利技术的一个实施例包括识别与字符串相关联的至少第一备选语言和第二备选语言;从该字符串确定与第一备选语言相关联的第一分割结果,并从该字符串确定与第二备选语言相关联的第二分割结果 ’为兎一分割结果确定弟一出现频率,和为弟~■分割结果确定弟~■出现频率;以及至少部分地基于第一出现频率和第二出现频率,从第一备选语言和第二备选语言来识别可行的;五古P口口 ο所提到的该示例性实施例 ...
【技术保护点】
一种计算机实现的方法,包括:在计算设备处接收字符串;识别针对所述字符串的至少第一备选语言和第二备选语言;通过计算设备将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三 ...
【技术特征摘要】
...
【专利技术属性】
技术研发人员:杰拉德·以色列·埃尔巴兹,雅各布·L·曼德尔森,
申请(专利权)人:谷歌公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。