【技术实现步骤摘要】
【国外来华专利技术】【专利说明】根据跨语种短语表的断词器 背景 断词器(也称为词态分析器)是一种接收单词并输出词素的自动化系统。例如, 给定一个单词,断词器能够标识可能组成该单词的一个或多个词素的组合。词素是语言中 最短的语法单元。单词的一个示例及其构成词素是单词"feeling",在该单词被用作为名词 时,其可包括单个词素"feeling",而当该单词被用作为动词时,可包括两个词素"feel"和 "ing"。 现有的断词器通常通过受监管的学习来创造,其中单词的示例及其词素通过人类 判断来标注。这使得要制作断词器变得昂贵和耗时,尤其是对于高度词性变化的语言,诸如 土耳其语。另一选项是使用词法数据和语言学规则。然而,取决于所涉及的语言,词法数据 和语言学规则常常不可用。 断词器对于许多应用是非常有用的,这些应用包括但不限于信息检索、机器翻译 以及语音处理。具体来说,断词器在处理诸如芬兰语、德语、土耳其语以及阿拉伯语之类的 词态丰富的语言时是有用的。 下面描述的实施例不限于解决已知的断词器和/或构造断词器的方式的任何或 所有缺点的实施方式。 概述 下面呈现了本专利技术的简要概述,以便向读者 ...
【技术保护点】
一种自动构建用于将源语言的单词分割成词素的断词器的方法,包括:在处理器处访问跨语种短语表,所述跨语种短语表包括多个源语言短语,每个源语言短语具有至少一个目标语言翻译;对于来自所述跨语种短语表的源语言单词,使用所述跨语种短语表来推导并存储词素,所述词素包括单词的词干和词缀。
【技术特征摘要】
【国外来华专利技术】...
【专利技术属性】
技术研发人员:M·A·埃尔沙尔维,A·AM·T·M·沙拉比,
申请(专利权)人:微软技术许可有限责任公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。