当前位置: 首页 > 专利查询>谷歌公司专利>正文

输入文本字符串的转换制造技术

技术编号:8886493 阅读:212 留言:0更新日期:2013-07-05 03:22
用于对文本字符串进行变换的方法、系统以及装置,包括编码在计算机存储介质上的计算机程序。总的来说,在本说明书中描述的主题的一个方面可以在方法中具体化,所述方法包括以下动作:接收具有多个词语的输入字符串,该输入字符串为第一形式;将输入字符串从第一形式变换成第二形式,其包括:将一个或多个规则应用到输入字符串来识别用于翻译的一个或多个词语,所识别的该一个或多个词语少于该多个词语,将所识别的一个或多个词语翻译成第二形式的一个或多个翻译词语,以及将该多个词语的剩余词语音译成第二形式的音译词语;以及连接翻译和音译词语来形成第二形式的混合输出字符串。

【技术实现步骤摘要】
【国外来华专利技术】
本说明书涉及输入字符串的转换。
技术介绍
传统文本与特定形式相关联,例如与特定书写系统和特定自然语言相关联。可以使用书写系统来表示一种或多种语言。例如,(使用罗马字符来表示的)拉丁书写系统可以用于自然语言英语以及用于例如如在罗马化中文(例如,拼音)中使用的自然语言中文。类似地,可以使用多个书写系统来表示同一语言。例如,可以使用汉字和拼音书写系统来表示中文。对输入字符串在形式之间进行转换(例如,从一个书写系统到另一个或从一种自然语言到另一种)会涉及输入字符串的翻译或音译。
技术实现思路
本说明书描述了与将文本输入字符串从第一形式转换成第二形式有关的技术。在文本和言语的国际化和翻译中,某些词基于其含义或语义被翻译(例如,英语“high”可以被翻译成日语“高P”,而英语“bridge”可以被翻译成“橋”)。其他词基于其发音或正字法,例如使用特定书写系统来书写语言的规则,被音译。例如,英语名称“Highbridge”被音译成日语为”、彳7'.; 'y 7”,而不是翻译形式“高橋”。混合形式包括在语义上翻译输入字符串的一部分,并且音译该输入字符串的其他部分。例如,"HighbridgePark”可以变成日语的混合形式‘~、^ 7'.; 夕公園”,其中‘~、^ -7-') 夕”是音译部分以及“公園”是翻译部分。本说明书描述了用于将词语的输入字符串从第一形式转换成第二形式,例如从一种自然语言或书写系统转换成另一 种自然语言或书写系统的技术。可以例如使用音译和混合翻译技术来执行该转换。将词语的输入字符串从第一形式转换成第二形式可以包括从第一语言的书写系统转换成第二语言的书写系统以及在同一语言的两个书写系统之间进行转换。在一些实施方式中,对于包括多个词语的输入字符串,执行机器变换来将输入字符串从一个形式转换成另一个形式的输出字符串。机器变换可以包括生成是输入字符串中的词语的音译和翻译的混合的输出字符串。例如,对词语的输入字符串进行转换可以包括使用规则来确定一个或多个词语是否待被翻译,并且使用特定于语言的规则来对其他词语执行首译。总的来说,在本说明书中描述的主题的一个方面可以在方法中具体化,所述方法包括以下动作:接收具有多个词语的输入字符串,该输入字符串为第一形式;将输入字符串从第一形式变换成第二形式,其包括:将一个或多个规则应用到输入字符串来识别用于翻译的一个或多个词语,所识别的一个或多个词语少于该多个词语,将所识别的一个或多个词语翻译成第二形式的一个或多个翻译词语,以及将该多个词语的剩余词语音译成第二形式的音译词语;以及连接翻译和音译词语来形成第二形式的混合输出字符串。本方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,其每一个被配置成执行所述方法的动作。一个或多个计算机的系统可以被配置成通过使运作时促使系统执行动作的软件、固件、硬件或其组合安装在系统上来执行特定操作或动作。一个或多个计算机程序可以被配置成通过包括当被数据处理装置执行时促使所述装置执行动作的指令来执行特定操作或动作。这些和其他实施例可以可选地包括下面特征中的一个或多个。第一形式和第二形式分别是第一书写系统和第二书写系统。第一形式和第二形式分别是第一自然语言和第二自然语言。输入字符串包括类型,以及其中将一个或多个规则应用到输入字符串包括识别具有与输入字符串的类型相匹配的类型的一个或多个规则;以及对于与输入字符串的类型相匹配的规则,确定输入字符串是否与相应一个或多个匹配规则的字符串模式相匹配。每一个规则包括用于相应输出形式的多个相应规则输出。匹配规则包括待被从第一形式翻译成第二形式的规则模式的一个或多个词语。对剩余词语进行音译包括:将字符串符号化成多个符号;将每一个符号从第一形式音译成第二形式;以及连接第二形式的音译符号来形成第二形式的音译的输出字符串。总的来说,在本说明书中描述的主题的一个方面可以在方法中具体化,所述方法包括以下动作:接收具有待被音译的多个词语的字符串,该字符串为第一形式;将该字符串符号化成多个符号;将每一个符号从第一形式音译成第二形式;将一个或多个特定于形式的规则应用到第二形式的音译符号;以及连接第二形式的音译符号来形成第二形式的音译的输出字符串。本方面的其他实施例包括对应的计算机系统、装置以及记录在一个或多个计算机存储设备上的计算机程序,其每一个被配置成执行所述方法的动作。一个或多个计算机的系统可以被配置成通过使运作时促使系统执行动作的软件、固件、硬件或其组合安装在系统上来执行特定操作或动作。一个或多个计算机程序可以被配置成通过包括当被数据处理装置执行时促使所述装置执行动作的指令来执行特定操作或动作。这些和其他实施例可以可选地包括下面特征中的一个或多个。对字符串进行符号化包括将字符串分成词符号。第一形式是第一书写系统以及第二形式是第二书写系统。第一形式是第一自然语言以及第二形式是第二自然语言。特定于形式的规则涉及在语素或词边界处发生的多种语音处理。连接包括基于输出形式和一个或多个语言规则来在一个或多个输出词语对之间添加另外字符。对每一个符号进行音译包括使用一个或多个有限状态转换器来生成第一形式和第二形式的语音表不。可以实现在本说明书中描述的主题的特定实施例,以实现下面益处中的一个或多个。与纯音译或翻译相比,使用音译和语义翻译的混合提高了变换的准确性。与独立翻译单个词语相比,使用其他词语的语境改进了音译。合并关于其名称被译写的实体的信息提高了音译准确性。例如,知道“Menlo Park”是指公园还是城市可以影响变换的输出。在附图和下面的描述中阐述了在本说明书中描述的主题的一个或多个实施例的细节。该主题的其他特征、方面和益处从描述、附图和权利要求将变得显而易见。附图说明图1是用于转换输入字符串的示例方法的流程图。图2是用于对输入字符串进行机器变换的示例方法的流程图。图3是用于对输入字符串的词语进行音译的示例方法的流程图。图4是示例系统体系结构。在各附图中相同的参考数字和标记指示相同的元素。具体实施例方式图1是用于对输入字符串进行转换的示例方法100的流程图。为了方便起见,将参考执行方法100、包括一个或多个计算设备的系统描述方法100。具体地,方法100参考对地理数据进行处理以(例如,在地图视图中)展示描述了操作,然而,可以对其他类型的数据执行相似动作。系统接收102在第一书写系统中的一个或多个输入字符串。所述输入字符串待从第一形式被转换成第二形式(例如,从第一书写系统转换成第二书写系统)。第一和第二形式可以表示相同或不同语言。在一些实施方式中,从地理特征集合(例如,从地理特征数据库)接收该一个或多个输入字符串。这些地理特征可以包括例如政治称号(例如,用于城市或州的名称)、旅游目的地或公园。每一个地理特征可以被注释或另外标记有关于物理世界中的对应实体的信息(例如,特征类型)。该信息可以包括类型类别,例如“城市”、“公园”或“旅游胜地”。在一些实施方式中,分型是类型的简单枚举,而不是继承。在其他实施方式中,使用单继承树层级来处理分型,其中除不是任何其他类型的子类型的一个或多个根类型外,每一个类型是另一个类型的子类型。在又一些其他实施方式中,使用多继承树来处理分型,其中类型可以是零个、一本文档来自技高网...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:萨斯卡·B·布拉韦尔马丁·扬斯什理查德·斯普罗特竹中浩寺岛有为
申请(专利权)人:谷歌公司
类型:
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1