根据跨语种短语表的断词器制造技术

技术编号:12625601 阅读:177 留言:0更新日期:2015-12-31 19:09
描述了将单词分割成词素的自动创建的断词器,例如用以改善信息检索、机器翻译或语音处理。在各实施例中,提供了一种跨语种短语表,其包括源语言(诸如土耳其语)短语和目标语言(诸如英语)的可能的翻译,并带有相关联的概率。在各个示例中,短语表中具有类似目标语言翻译的源语言短语的块被创建。在各个示例中,使用块中的目标语言翻译的推导使得能够找到针对源语言单词的词干和词缀组合,而无需来自人类判断的输入或者对于源语言语言学规则或源语言词法的在先知识。

【技术实现步骤摘要】
【国外来华专利技术】【专利说明】根据跨语种短语表的断词器 背景 断词器(也称为词态分析器)是一种接收单词并输出词素的自动化系统。例如, 给定一个单词,断词器能够标识可能组成该单词的一个或多个词素的组合。词素是语言中 最短的语法单元。单词的一个示例及其构成词素是单词"feeling",在该单词被用作为名词 时,其可包括单个词素"feeling",而当该单词被用作为动词时,可包括两个词素"feel"和 "ing"。 现有的断词器通常通过受监管的学习来创造,其中单词的示例及其词素通过人类 判断来标注。这使得要制作断词器变得昂贵和耗时,尤其是对于高度词性变化的语言,诸如 土耳其语。另一选项是使用词法数据和语言学规则。然而,取决于所涉及的语言,词法数据 和语言学规则常常不可用。 断词器对于许多应用是非常有用的,这些应用包括但不限于信息检索、机器翻译 以及语音处理。具体来说,断词器在处理诸如芬兰语、德语、土耳其语以及阿拉伯语之类的 词态丰富的语言时是有用的。 下面描述的实施例不限于解决已知的断词器和/或构造断词器的方式的任何或 所有缺点的实施方式。 概述 下面呈现了本专利技术的简要概述,以便向读者提供基本理解。本概述本文档来自技高网...
根据跨语种短语表的断词器

【技术保护点】
一种自动构建用于将源语言的单词分割成词素的断词器的方法,包括:在处理器处访问跨语种短语表,所述跨语种短语表包括多个源语言短语,每个源语言短语具有至少一个目标语言翻译;对于来自所述跨语种短语表的源语言单词,使用所述跨语种短语表来推导并存储词素,所述词素包括单词的词干和词缀。

【技术特征摘要】
【国外来华专利技术】...

【专利技术属性】
技术研发人员:M·A·埃尔沙尔维A·AM·T·M·沙拉比
申请(专利权)人:微软技术许可有限责任公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1