当前位置: 首页 > 专利查询>微软公司专利>正文

中文字分割制造技术

技术编号:2860173 阅读:195 留言:0更新日期:2012-04-11 18:40
本发明专利技术涉及一种用于在训练语言模型时使用的主体。所述主体包括多个字符和与多个字符序列结合的多个语法标记。所述语法标记指的是字符的结合序列的语法类型和形成语法子类的部分的结合。

【技术实现步骤摘要】

技术介绍
本专利技术一般涉及自然语言处理领域。且特别是,本专利技术涉及文字分割。文字分割指的是对组成语言表达,例如文本的单独的文字进行识别的处理。文字分割在检查拼写和语法、分析文本的语言、和执行自然语言语法分析和理解时是非常有用的,所有上述好处都来自对单独文字的识别。执行对英文文本的文字分割是很直接的,因为空格和标点符号在文本中对单独的文字划界限。考虑下面表1中的英文句子。The motion was then tabled--that is,removed indefinitely from consideration. 表1通过每一个相邻顺序的空格和/或标点符号,表1中的英语句子可以被直接象表2所示那样分割。The motion was then tabled--that is,removed indefinitely from consideration. 表2在中文文本中,文字的界限是隐含的而非明白的。考虑下面表3中的句子,其意思表示“昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。”昨天下午委员会在布宜诺斯艾利斯讨论了这个问题。表3不必考虑句中标点和空格的缺少,一个中文读者将会认识到表3中的句子是由下面表4中分别加了下划线的文字组成的。昨天 下午 委员会 在 布宜诺斯艾利斯 讨论 了 这个 问题。表4已经设计很多方法和系统来提供对语言例如中文和日文的文字分割。在一些系统中,模型在分割文本的主体的基础上被训练。模型描述了在一个文本串中出现的多种分割的相似性并提供表示它们的输出。开发一个用来训练模型的主体耗用时间和费用。在很多情况下,组合文字的分割系统的输出质量取决于用来训练模型的主体的质量。因此,用于评价主体和开发主体的方法将有助于提供高质量的文字分割。专利技术概述本专利技术涉及一种用于在训练语言模型中使用的主体。所述主体包括多个字符和与多个字符的序列相组合的多个语法标记。所述多个语法标记指的是字符序列组合的语法类型和形成语法子类型的部分的联合。在另一方面,提供一种具有执行文字分割的指令的计算机可读介质。所述指令包括接收一个未分割文本的输入和访问一个语言模型来确定对所述文本的分割。语法导出文字在文本中检测并且提供表示分割文本的输出和表示形成语法导出文字的部分的联合。附图概述附图说明图1示出了一种本专利技术可在其中应用的一般计算环境图2示出了一种语言处理系统的结构图。图3示出了一种开发加注解主体的方法的流程。图4示出了用于创建语言模型和评价语言模型性能的流程。图5示出了语法导出文字的类型和子类型的结构图。专利技术详述在具体讨论本专利技术之前,首先讨论本专利技术能够在其中使用的示范性环境的一个实施方案。图1示出了一个在其中本专利技术能够实现的适合的计算系统环境100的实施例。所述计算环境100仅仅是合适的计算环境的一个实施例,并且不意味着建议对本专利技术的使用范围或功能做任何限制。计算环境100既不应被解释为具有依赖性也不需要涉及示范性操作环境100中示出的任一部件或部件组合。本专利技术在具有许多其他一般目的或者特殊目的计算系统环境或配置中是可操作的。可能适合本专利技术在其中应用的众所周知的计算系统、环境和/或配置的例子包括,但是并不限于,个人计算机、服务器、手持或便携式设备、多处理系统、基于微处理的系统、机顶盒、可编程用户电器、网络计算机、迷你计算机、大型计算机、包括任何上述系统或设备的分布式计算环境,及其相似物。所述专利技术可能被以计算机可执行指令的一般文本的方式来描述,例如计算机执行的程序模块。一般地,程序模块包括执行特殊任务或者实现特殊抽象数据类型的通用程序、程序、对象、部件、数据结构等。本领域普通技术人员能够将这里的说明和/或数字作为计算机可执行指令实现,所述计算机指令能嵌入下面所讨论的任何形式的计算机可读介质。所述专利技术也可以在任务通过以通信网络连接的远程处理设备来实现的分布式计算环境中应用。在分布式计算环境中,程序模块可以被设置在包括了存储设备的本地和远程计算机存储介质中。参考图1,用于实现所述专利技术的示范性系统包括以计算机110的形式表示的一般目的计算设备。计算机110的部件可以包括,但是不限于,处理单元120,系统存储器130,和连接多个系统部件包括从系统存储器到处理单元120的系统总线121。系统总线可以是包括存储器总线或存储控制器、外围设备总线、和使用任何总线结构的本地总线的几种总线结构的任意一种。通过举例的,但不限于此,包括工业标准结构(ISA)总线、微通道体系结构(MCA)总线、加强工业标准结构(EISA)总线、视频电子标准协会(VESA)本地总线、和外设部件互连(PCI)总线在内的结构也作为中间总线为人所知。计算机110典型包括多种计算机可读介质。计算机可读介质可以是计算机110能访问的任何可得介质,并包括易失性和非易失性介质,可移动和固定介质。通过举例,但不限于此,计算机可读介质可以包括计算机存储介质和通信介质。计算机存储介质可包括以任何方法和技术实现信息存储的易失和非易失性介质、可移动和固定介质,例如计算机可读指令,数据结构、程序模块或其它数据。计算机存储介质包括,但不限于,随机存取存储器、只读存储器、电可擦可编程只读存储器、闪存或其他存储技术、CD-ROM、数字化视频光盘(DVD)或其它光盘存储器、盒式磁带、磁带、磁盘存储器或其它磁性存储设备,或者其它任何能用来存储目标信息并能被计算机110访问的介质。通信介质典型嵌入计算机可读指令、数据结构、程序模块或其它已调制数据信号例如载波或其它传输机制中的数据,并且包括任何信息发送介质。术语“已调制数据信号”指的是一个或者多个特征以关于信号编码信息的方式被设置或改变的信号。通过举例的方式,但不限于,通信介质包括无线介质例如无线网络或者单线连接,和例如声学的、射频、红外线的无线介质和其它无线介质。上述介质的组合也可以包括在计算机可读介质的范围之内。系统存储器130包括例如象只读存储器(ROM)131和随机存取存储器(RAM)132的易失性和/或非易失性存储器的形式的计算机存储介质。基本输入/输出系统133(BIOS),其包括帮助在计算机110内的元件间传输信息的基本通用程序,例如在启动时,所述基本输入/输出系统典型地存储在ROM131中。RAM132典型地包括能为处理单元120立刻获得和/或马上操作地数据和/或程序模块。通过举例的方式,但不限于,图1示出了操作系统134、应用程序135、其它程序模块136,和程序数据137。计算机110也可包括其它可移动的/固定的易失性/非易失性计算机存储介质。仅通过举例,图1示出了向固定的、非易失性磁介质读取或写入的硬盘驱动器141,向可移动的、非易失性磁盘152读取或写入的磁盘驱动器151,和向例如CD ROM或其它光学介质的可移动的、非易失性的光盘156读取或写入的光盘驱动器155。其它能够在示范性操作环境中使用的可移动的/固定的、易失性/非易失性的计算机存储介质包括,但不限于,盒式磁带、闪存条、数字化视频光盘、视频数字带、固态RAM,固态ROM,及其相似物。硬盘驱动器141典型地通过固定存储器接口例如接口140连接到系统总线121上,并且磁盘驱动器151和光盘驱动器155典型地通过可移动存储器接口,例如接本文档来自技高网...

【技术保护点】
一种存储在计算机可读介质中的用于训练语言模型的主体,所述主体包括:多个字符;和与多个字符的字符序列相结合的多个语法标记,所述多个语法标记指的是结合的字符序列的语法类型和形成语法子类型的部分的联合。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:黄昌宁高剑峰M李AX常
申请(专利权)人:微软公司
类型:发明
国别省市:US[]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1