当前位置: 首页 > 专利查询>谷歌公司专利>正文

选择用于文本分割的语言的方法和系统技术方案

技术编号:8105698 阅读:168 留言:0更新日期:2012-12-21 04:25
公开了用于选择文本分割的语言的方法和系统。在一个实施例中,识别出与字符串相关联的至少第一备选语言和第二备选语言;至少确定与第一备选语言相关联的第一分割结果和与第二备选语言相关联的第二分割结果;确定第一分割结果出现的第一频率和第二分割结果出现的第二频率;以及至少部分地基于所述出现的第一频率和所述出现的第二频率,从第一备选语言和第二备选语言识别可行的语言。

【技术实现步骤摘要】

本专利技术涉及文本分割,更具体地讲,涉及对文本分割的语言进行选择。
技术介绍
已经存在了试图解译表示文本的数据的文本处理方法和系统。在接收到没有指示单词或其它分割段(token)的分隔符的、由字符串组成的文本时,进行文本处理更加困难。当使用现有方法和系统处理这种字符串时,为了解译字符串,可以将字符分割为分割段。分割段可以是单词、首字母缩写、缩略语、适当名称、地理名称、股票市场交易符号或其它分割段。通常,可以使用现有的方法和系统,将字符串分割为分割字符串的多个组合。在对文本进行分割时选择使用正确的语言可以产生更加有意义的结果。
技术实现思路
本专利技术的实施例包括选择用于文本分割的语言的方法和系统。本专利技术的一个实施例包括识别与字符串相关联的至少第一备选语言和第二备选语言;从该字符串确定与第一备选语言相关联的第一分割结果,并从该字符串确定与第二备选语言相关联的第二分割结果 ’为兎一分割结果确定弟一出现频率,和为弟~■分割结果确定弟~■出现频率;以及至少部分地基于第一出现频率和第二出现频率,从第一备选语言和第二备选语言来识别可行的;五古P口口 ο所提到的该示例性实施例并不限制或限定本专利技术,而是提供了有助于理解本专利技术实施例的示例。在具体实施方式中对示例性实施例进行了讨论,并提供了对本专利技术进一步的描述。通过核对说明书,可以进一步理解本专利技术的各个实施例所提供的优点。附图说明当参照附图阅读以下具体实施方式时,可以更好地理解本专利技术的这些和其它特征、方面和优点,其中图I示出了根据本专利技术一个实施例的系统示意图;以及图2示出了由本专利技术执行的方法的一个实施例的流程图。具体实施例方式引言本专利技术的实施例包括选择用于文本分割的语言的方法和系统。本专利技术具有多个实施例。通过引言和示例,本专利技术的一个示例性实施例提供了通过为字符串选择正确的语言,来改进将诸如域名之类的字符串分割为多个分割段或单词的方法。可以基于各种信号,例如,与该字符串相关联的语言、与用户相关联的IP地址、用于字符串的字符集、与用户相关联的浏览器应用程序的浏览器设置、以及与该字符串相关联的任何最高层域,来选择用于该字符串的多种潜在或备选语言。可以使用每种备选语言将字符串分割为许多分割结果。每个分割结果可以是单词或其它分割段的特定组合。例如,可以针对英语语言将字符串“usedrugs”分割为以下分割结果“used rugs”,“use drugs”,“us edrugs”等。根据针对每种备选语言的分割结果的数目,可以根据包含可行的分割后结果的可行语言中的文档或搜索疑问的数目来识别可行的分割结果和可行的语言。例如,可以为每种备选语言选择成为最可行分割结果的可能性最高的分割结果。搜索引擎可以确定包含所选择的分割结果的文档或搜索疑问的数目,并且可以为每种备选语言的每个所选分割结果都这样做。在一个实施例中,可以将在特定语言的文档或搜索疑问中以出现频率最大分割结果识别为最可行的分割结果。可以将与最可行的分割结果相关联的语言识别为最可行的语言。用于确定备选语言的语言信号也可以用于选择可行的语言。可行的分割结果和可行的语言可以被用于各种功能,包括基于语言和结果选择广告。给出该引言以将读者引导至该申请的一般技术主题。这并不意味着将本专利技术限制 于该技术主题。以下对示例性实施例进行描述。系统架构可以构造根据本专利技术的各种系统。图I是示出了可以在其中执行本专利技术示例性实施例的示例性系统的示意图。本专利技术同样可以操作并体现于其它系统。现在参照附图,在所有多个附图中,类似的数字指示类似的单元,图I是示出了实施本专利技术实施例的示例性环境的示意图。图I中所示的系统100包括通过网络106与服务器设备104和服务器设备150通信的多个客户机设备102a-n。在一个实施例中,所示的网络106包括因特网。在其它实施例中,可以使用诸如内联网、WAN或LAN之类的其它网络。此外,根据本专利技术的方法可以在单个计算机内工作。图I中所示的客户机设备102a_n各包括计算机可读介质,例如,与处理器110连接的随机存取存储器(RAM) 108。处理器110执行存储器108中存储的计算机可执行程序指令。这种处理器可以包括微处理器、ASIC,和状态机。这种处理器包括或可以与像例如计算机可读介质这样的、存储了指令的介质通信,在处理器执行指令时,使处理器执行这里所描述步骤。计算机可读介质的实施例包括,但不局限于能够向诸如客户机102a的处理器110之类的处理器提供计算机可读指令的电、光、磁或其它存储或传输设备。其它适合介质的示例包括,但不局限于软盘、CD-ROM、DVD、磁盘、存储器芯片、ROM、RAM、ASIC、配置的处理器、所有光介质、所有磁带或其它磁介质、或计算机处理器可以从中读取指令的任何其它适合的介质。此外,各种其它形式的计算机可读介质可以将指令传输或携带至计算机,包括路由器、专用或公共网络、或其它传输设备或信道(有线和无线)。指令可以包括来自任何适合的计算机编程语言的代码,包括例如,C、C++、C#、Visual Basic、Java、Python、Perl和JavaScript。客户机设备102a_n还可以包括多个外部或内部设备,如,鼠标、⑶-ROM、DVD、键盘、显示器、或其它输入或输出设备。客户机设备102a-n的示例是个人计算机、数字助理、个人数字助理、蜂窝电话、移动电话、智能电话、寻呼机、数字书写板、膝上型计算机、因特网设备和其它基于处理器的设备。通常,客户机设备102a可以是与网络106连接并与一个或多个应用程序交互的任何适合类型的基于处理器的平台。客户机设备102a-n可以在能够支持浏览器或浏览器支持的应用程序的任何操作系统,例如,Microsoft Windows 或Linux,上操作。例如,所示的客户机设备102a-n包括执行诸如微软公司的因特网Explorer 、Netscape通信公司的Netscape Navigator 、以及苹果计算机公司的Safari 之类的浏览器应用程序的个人计算机。通过客户机设备102a_n,用户112a_n可以通过网络106彼此通信,并与同网络106连接的其它系统和设备通信。如图I中所示,服务器设备104和服务器设备150也可以与网络106连接。服务器设备104可以包括执行分割引擎应用程序的服务器,服务器设备150可以包括执行搜索引擎应用程序的服务器。与客户机设备102a-n类似,图I中示出的服务器设备104和服务器设备150分别包括与计算机可读存储器118连接的处理器116、以及与计算机可读存储器154连接的处理器152。作为单个计算机系统来描述的服务器设备104和150可以作为计算机处理器网络来实施。服务器设备104、150的示例是服务器、大型计算 机、联网计算机、基于处理器的设备、以及类似类型的系统和设备。客户机处理器110和服务器处理器116、152可以是如以上描述的多种计算机处理器中的任何一个,例如,来自加利福尼亚的圣克拉拉的英特尔公司的处理器、以及伊利诺斯州的绍姆堡的摩托罗拉公司。存储器118包含分割应用程序,也称为分割引擎120。服务器设备104或相关设备可以接入网络106,以接收来自与网络106连接的其它设备或系统的字符串。例如,字符可以包括用于书写系统本文档来自技高网...

【技术保护点】
一种计算机实现的方法,包括:在计算设备处接收字符串;识别针对所述字符串的至少第一备选语言和第二备选语言;通过计算设备将所述字符串至少分割为针对第一备选语言的第一分割结果和针对第二备选语言的第二分割结果,其中所述第一分割结果包括第一多个分割段,所述第二分割结果包括第二多个分割段;使用确定一个或多个第一分割段的正确或优选拼写的拼写检查功能,来确定至少第一分割结果的拼写修正后的分割结果;确定第一分割结果在与第一备选语言相关联的第一语料库中的第一出现频率、第二分割结果在与第二备选语言相关联的第二语料库中的第二出现频率、和拼写修正后的分割结果在与第一备选语言相关联的第一语料库中的第三出现频率;以及通过计算设备至少基于第一出现频率、第二出现频率和第三出现频率来识别针对所述字符串的可操作的分割结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:杰拉德·以色列·埃尔巴兹雅各布·L·曼德尔森
申请(专利权)人:谷歌公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1