当前位置: 首页 > 专利查询>邓白氏公司专利>正文

多语言商业标记管理以及音译合成制造技术

技术编号:12621106 阅读:60 留言:0更新日期:2015-12-30 18:44
提供了一种方法,该方法包括:将字符串解析成字符串的字素,并且生成表示字素的抽象的字符模式。还提供了执行该方法的系统以及包括用于对处理器进行控制以执行该方法的指令的存储装置。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】 相关申请的交叉引用 本申请要求于2013年3月15日提交的序列号为61/793, 044的美国临时专利申 请的优先权,其内容通过引用被合并到本文中。
本公开内容涉及下述情况:信息已经在两种或更多种语言或文字系统之间被转 换,从而产生原始信息的第二表示、第三表示和多级表示。
技术介绍
本部分中描述的方法是能够推行的方法,但是不一定是先前已经构思或推行的方 法。因此,本部分中描述的方法可能不是本申请中的权利要求的现有技术并且不允许通过 包括在本部分中而成为现有技术。 本公开内容关注数据的自动语言转换领域,尤其关注特定上下文(如商业实体名 称)内的不同的正字法之间(如俄语西里尔体至拉丁体)的转换。 现有技术方法并未令人满意地将第一语言的名称的不同部分转换成第二语言的 名称。在该上下文中,"不同部分"指代语义元素,例如给定的名称、地理名称、普通名词、描 述性形容词、公司后缀等。例如,可能存在下述需要:将本来用西里尔文书写的俄语的商业 名称转换成让讲德语的观众"可理解"的拉丁体。现有技术方法通常通过执行一一映射和 /或直译来解决该问题。在该上下文中,"一一映射"指目标语言中的已经被映射至源数据 (名称)中的字的单个字的存储和检索。在该上下文中,"直译"指将字的含义(或者整个 名称)从源语言翻译成目标语言。因此,现有技术方法实现了下述转换:该转换是"可发音 的",但是该转换并不例如将商业名称的描述性部分转换成讲德语的人能够理解的语言。 现有技术方法的另一个问题是:在技术产生错误翻译或转换的情况下,该技术并 没有提高翻译或转换质量的自动方法。即,现有技术方法未能从经验中获得学习并利用经 验。
技术实现思路
提供了一种方法,该方法包括:将字符串解析成它的字素,并且生成表示字素的抽 象的字符模式。还提供了执行该方法的系统以及包括用于对处理器进行控制以执行该方法 的指令的存储装置。【附图说明】 图1是数据的自动语言转换的处理的逻辑结构的框图。 图2是由图1的处理使用的参考数据存储器的逻辑结构的框图。 图3是由图1的处理使用的经验数据存储器的逻辑结构的框图。 图4是图1的处理的第一级功能的逻辑结构的框图。 图5是图1的处理的第二级功能的逻辑结构的框图。 图6是图1的处理的递归完善功能的逻辑结构的框图。 图7是图1的处理的第一级功能的示例性操作的流程图。 图7A是图7的一部分的详图,并且描绘了正由字素矩阵处理执行的示例性操作的 流程图。 图7B是图7的一部分的详图,并且描绘了正由上下文领悟处理执行的示例性操作 的流程图。 图7C是图7的一部分的详图,并且描绘了正由语义领悟处理执行的示例性操作的 流程图。 图8是图1的处理的第二级功能的示例性操作的流程图。 图8A是图8的一部分的详图,并且描绘了规则引擎和编排服务利用转换编排规则 存储器进行的交互。 图8B描绘了通过俄语西里尔文示例的翻译和语际转换进行的处理; 图9是递归完善功能的示例性操作的流程图。 图9A是图9的一部分的详图,并且描绘了启发处理的符号表示和由启发处理的子 组件参考的数据存储器。 图9B是图9的一部分的详图,并且描绘了整合处理和由该整合处理的子组件参考 的数据存储器。 图9C示出了规则引擎的符号表示和编排服务的符号表示。 图10是采用本文中描述的方法的系统的框图。 在每个图中,用相同的附图标记来表示多于一个图所共有的部件或特征。【具体实施方式】 本文中使用的术语"语际"和在序列号为61/793, 044的美国临时专利申请中使用 的术语"词素文字(lexigraphical) "都表示"在两种或更多种语言之间或者与两种或更多 种语言相关"。 图1是用于数据的自动语言转换的处理100的逻辑结构的框图。处理100从可以 是人或呼叫系统的用户130接收被提供给语际转换领悟环境135的输入105,并且产生输出 数据106,输出数据106是已经在两种或更多种语言或文字系统之间被转换的输入105的某 个版本。处理100产生输入105的第二表示、第三表示和多级表示,并且因此为用户130提 供优于源正字法与目标正字法之间的文字转录的领悟。 处理100给用户130提供领悟,包括但不限于对语言间(即语言之间或正字法之 间,即文字系统之间、语义和非语义之间、上下文和非上下文之间语际转换或翻译)的特定 领域中的相似性的推断。处理100给用户130提供使用多个同时形态(即一个或更多个语 言或文字系统中出现的信息)来识别、分析、比较、对比或提取输入105中包括的信息的能 力,以特别通过对输入105的标记的本质要素或属性的识别在不同语言、文稿或文字系统 (词态学)之间或之中进行转录。这些本质要素用作同源词(cognate),从而允许源于不同 的词态学的数据的有意义的比较。 输入105包括输入实质性数据110和输入语义上下文数据115。 输入实质性数据110是输入的输入本身的主题数据,其通常将是以特定语言和文 字系统(正字法)表达的企业的名称。输入实质性数据110是"非结构化的",其中不存在 对有助于处理100的执行的输入实质性数据110的内容的固有指导。 输入语义上下文数据115是可以被发现或者特别地根据对输入105、内容、历史或 提供输入105的环境的分析或者输入105的元数据被推断的上下文数据。输入语义上下文 数据115被认为是"结构化的",因为输入语义上下文数据115是关于输入实质性数据110 的元数据,例如,输入实质性数据110的源,输入实质性数据110被接收的日期以及将输入 实质性数据110传输至用于执行处理100的系统的系统。 处理100包括跨越语际转换领悟环境135中的多个子域或功能子集的功能,S卩,第 一级功能140、第二级功能150和递归完善功能160。语际转换领悟环境135还包括数据存 储器170。 数据存储器170是数据存储装置,并且包括参考数据存储器172和经验数据存储 器174。基于在执行处理100期间获得的经验对经验数据存储器174进行更新。根据客观 规则和标准而不是基于通过执行处理100获得的经验对参考数据存储器172进行更新。将 数据存储器170分成参考数据存储器172和经验数据存储器174仅出于便于说明的目的, 而并不一定反映相关存储器的物理分割。 第一级功能140是作用于输入的输入数据(即输入105)的功能的集合,并且包括 三个子组件,即,字素矩阵142、上下文领悟144和语义领悟146。 第二级功能150是对输入105和第一级功能140的输出的组合进行操作的功能和 处理的集合。第二级功能150包括两个子组件,S卩,翻译152和语际转换154。 递归完善功能160是对来自第一级功能140和第二级功能150的结果以及从对处 理100的执行的识别和分析获得的其他输入进行操作的功能的集合,以提高处理100的效 率和功效。这样的分析包括对驻留在经验数据存储器174中的参考数据的管理和合成。递 归完善功能160包括两个子组件,S卩,启发162和整合164。 图2是参考数据存储器172的逻辑结构的框图。参考数据存储器172包括: (a)同义词存储器205,其存储特定字或其他语言子分量的同义词或替代词条的 集合; (b)风格存储器2本文档来自技高网
...

【技术保护点】
一种方法,包括:将字符串解析成所述字符串的字素;以及生成表示所述字素的抽象的字符模式。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:安东尼·J·斯克里菲尼亚诺迈克尔·克莱内肖恩·卡罗兰沃威克·马修斯
申请(专利权)人:邓白氏公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1