当前位置: 首页 > 专利查询>微软公司专利>正文

通过用户建模的有效大写化文本的方法和系统技术方案

技术编号:2858989 阅读:224 留言:0更新日期:2012-04-11 18:40
一种自动大写化文本的方法使用了一种大写化模型。该大写化模型从与特定用户相关联的文档中取出的数据中训练。具体地,使用诸如电子邮件等由用户创作的文档来训练该模型。

【技术实现步骤摘要】

本专利技术涉及自动文本纠正,尤其涉及自动大写化(capitalization)。
技术介绍
从用户输入生成的文本通常包括大写错误。这在由语音识别系统生成的文本中尤其常见。尽管这类识别系统通常包括用于大写化每一句子的第一个单词以及一小组已知名字的简单规则,然而它们一向无法大写化文本中的许多单词。结果,对于语音识别系统,大写错误率大约为5%。这表示语音识别系统提供的文本中存在着的错误的重要组成部分。在过去,开发了自动大写化系统。然而,这些过去的系统并不理想。在一个这样的系统中,基于文档的大语料库开发了大写化规则。该系统使用大语料库是因为它认为大语料库会提供对可能的大写形式的较好覆盖,并且由此会提供更准确的大写化系统。然而,这类系统具有很多缺点。首先,由于使用了大语料库,大写规则本身变得非常大,因此通过大写化规则搜索文本中的每一单词变得很低效。另外,由于规则是从大语料库中导出的,因此它们通常在模型被发货之前导出一次,并且在模型被发货之后不再更新。结果,模型不适用于新的大写形式。此外,特定的用户可能与大语料库中的文档的未知作者不同地大写化单词。结果,该模型可能不以用户期望的方式来运作。在其它系统中,由语言专家生成可接受的大写列表。尽管这一列表比大语料库列表更精简,然而生产它是昂贵的,因为它需要专家的介入。
技术实现思路
一种自动大写化文本的方法使用了一种大写化模型。该大写化模型从与特定用户相关联的文档中取出的数据被训练。具体地,诸如电子邮件等由用户创作的文档用于训练该模型。附图说明图1是其中可使用本专利技术的一个示例性环境的框图。图2是其中可使用本专利技术的移动设备的框图。图3是本专利技术的一个实施例中用于构造并使用大写化模型的组件的框图。图4是本专利技术的一个实施例中用于构建并使用大写化模型的流程图。图5是本专利技术的一个实施例中使用大写化模型的方法的流程图。图6是本专利技术的一个实施例中使用大写化模型的方法的流程图。具体实施例方式图1示出了适合在其中实现本专利技术的计算系统环境100的一个示例。计算系统环境100仅为合适的计算环境的一个示例,并非暗示对本专利技术的使用范围或功能的局限。也不应将计算环境100解释为对示例性操作环境100中示出的任一组件或其组合具有任何依赖或需求。本专利技术可以使用众多其它通用或专用计算系统环境或配置来操作。适合使用本专利技术的众所周知的计算系统、环境和/或配置包括但不限于个人计算机、服务器计算机、手持式或膝上设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费者电子设备、网络PC、小型机、大型机、电话系统、包括任一上述系统或设备的分布式计算环境等等。本专利技术可在诸如由计算机执行的程序模块等计算机可执行指令的一般上下文环境中描述。一般而言,程序模块包括例程、程序、对象、组件、数据结构等等,执行特定的任务或实现特定的抽象数据类型。本专利技术也可以在分布式计算环境中实践,其中,任务由通过通信网络连接的远程处理设备来执行。在分布式计算环境中,程序模块可以位于本地和远程计算机存储介质中,包括存储器存储设备。参考图1,用于实现本专利技术的示例性系统包括计算机110形式的通用计算装置。计算机110的组件包括但不限于,处理单元120、系统存储器130以及将包括系统存储器的各类系统组件耦合至处理单元120的系统总线121。系统总线121可以是若干种总线结构类型的任一种,包括存储器总线或存储器控制器、外围总线以及使用各类总线体系结构的局部总线。作为示例而非局限,这类体系结构包括工业标准体系结构(ISA)总线、微通道体系结构(MCA)总线、增强ISA(EISA)总线、视频电子技术标准协会(VESA)局部总线以及外围部件互连(PCI)总线,也称为Mezzanine总线。计算机110通常包括各种计算机可读介质。计算机可读介质可以是可由计算机110访问的任一可用介质,包括易失性和非易失性介质、可移动和不可移动介质。作为示例而非局限,计算机可读介质包括计算机存储介质和通信介质。计算机存储介质包括以用于储存诸如计算机可读指令、数据结构、程序模块或其它数据等信息的任一方法或技术实现的易失性和非易失性,可移动和不可移动介质。计算机存储介质包括但不限于,RAM、ROM、EEPROM、闪存或其它存储器技术、CD-ROM、数字多功能盘(DVD)或其它光盘存储、磁盒、磁带、磁盘存储或其它磁存储设备、或可以用来储存所期望的信息并可由计算机110访问的任一其它介质。通信介质通常在诸如载波或其它传输机制的已调制数据信号中包含计算机可读指令、数据结构、程序模块或其它数据,并包括任一信息传送介质。术语“已调制数据信号”指以对信号中的信息进行编码的方式设置或改变其一个或多个特征的信号。作为示例而非局限,通信介质包括有线介质,如有线网络或直接连线连接,以及无线介质,如声学、RF、红外和其它无线介质。上述任一的组合也应当包括在计算机可读介质的范围之内。系统存储器130包括以易失性和/或非易失性存储器形式的计算机存储介质,如只读存储器(ROM)131和随机存取存储器(RAM)132。基本输入/输出系统133(BIOS)包括如在启动时帮助在计算机110内的元件之间传输信息的基本例程,通常储存在ROM131中。RAM132通常包含处理单元120立即可访问或者当前正在操作的数据和/或程序模块。作为示例而非局限,图1示出了操作系统134、应用程序135、其它程序模块136和程序数据137。计算机110也可包括其它可移动/不可移动、易失性/非易失性计算机存储介质。仅作示例,图1示出了对不可移动、非易失性磁介质进行读写的硬盘驱动器141、对可移动、非易失性磁盘152进行读写的磁盘驱动器151以及对可移动、非易失性光盘156,如CD ROM或其它光介质进行读写的光盘驱动器155。可以在示例性操作环境中使用的其它可移动/不可移动、易失性/非易失性计算机存储介质包括但不限于,磁带盒、闪存卡、数字多功能盘、数字视频带、固态RAM、固态ROM等等。硬盘驱动器141通常通过不可移动存储器接口,如接口140连接到系统总线121,磁盘驱动器151和光盘驱动器155通常通过可移动存储器接口,如接口150连接到系统总线121。图1讨论并示出的驱动器及其关联的计算机存储介质为计算机110提供了计算机可读指令、数据结构、程序模块和其它数据的存储。例如,在图1中,示出硬盘驱动器141储存操作系统144、应用程序145、其它程序模块146和程序数据147。注意,这些组件可以与操作系统134、应用程序135、其它程序模块136和程序数据137相同,也可以与它们不同。这里对操作系统144、应用程序145、其它程序模块146和程序数据147给予不同的标号来说明至少它们是不同的副本。用户可以通过输入设备,如键盘162和定位设备161(如鼠标、跟踪球或触摸板)向计算机110输入命令和信息。其它输入设备(未示出)可包括麦克风、操纵杆、游戏垫、圆盘式卫星天线、扫描仪等等。这些和其它输入设备通常通过耦合至系统总线的用户输入接口160连接至处理单元120,但是也可以通过其它接口和总线结构连接,如并行端口、游戏端口或通用串行总线(USB)。监视器191或其它类型的显示设备也通过接口,如视频接口190连接至系统总线121。除监视本文档来自技高网...

【技术保护点】
一种训练大写化模型用于自动大写化文本的方法,其特征在于,所述方法包括:收集满足限制的训练文档,所述限制要求所述训练文档与特定用户相关联;以及使用所收集的训练文档来训练所述大写化模型。

【技术特征摘要】
US 2004-4-6 10/819,0231.一种训练大写化模型用于自动大写化文本的方法,其特征在于,所述方法包括收集满足限制的训练文档,所述限制要求所述训练文档与特定用户相关联;以及使用所收集的训练文档来训练所述大写化模型。2.如权利要求1所述的方法,其特征在于,所述限制要求所述训练文档由所述用户创作。3.如权利要求2所述的方法,其特征在于,如果用户回复了电子邮件,则该电子邮件被认为是由该用户创作的。4.如权利要求2所述的方法,其特征在于,如果用户转发了电子邮件,则该电子邮件被认为是由该用户创作的。5.如权利要求1所述的方法,其特征在于,所述限制要求所述训练文档储存在用户的本地机器上。6.如权利要求1所述的方法,其特征在于,所述限制要求所述训练文档储存在网络上与所述用户相关联的目录中。7.如权利要求1所述的方法,其特征在于,使用所收集的训练文档来训练所述大写化模型包括对所收集的训练文档中大写形式的出现计数。8.如权利要求7所述的方法,其特征在于,对大写形式的出现计数包括对单词对的出现计数,其中,所述单词对中的至少一个单词包括一大写化的字符。9.如权利要求8所述的方法,其特征在于,对单词对的出现计数包括对这样的单词对的出现计数它包括具有至少一个大写化字符的单词,以及在该单词和具有至少一个大写化字符的第二单词之间发现的介词。10.如权利要求8所述的方法,其特征在于,对单词对的出现计数包括对这样的单词对的出现计数它包括具有至少一个大写化字符的第一单词,以及具有至少一个大写化字符的相邻第二单词。11.如权利要求7所述的方法,其特征在于,使用所收集的训练文档来训练所述大写化模型还包括使用所述大写化形式的出现的计数来剪除至少一个大写化形式,使得它不位于所述大写化模型中。12.如权利要求11所述的方法,其特征在于,使用所收集的训练文档来训练所述大写化模型还包括,如果所述大写化模型中包含所述大写化形式的大写的每一单词与同一大写一起出现作为单个单词,则剪除包括两个单词的至少一个大写形式,使得它不位于所述大写化模型中。13.如权利要求1所述的方法,其特征在于,训练所述大写化模型包括储存单词对列表中的单词对的大写形式,以及储存单独的单个单词列表中的单个单词的大写形式。14.如权利要求1所述的方法,其特征在于,还包括使用所述大写化模型来大写化文本中的单词。15.如权利要求14所述的方法,其特征在于,使用...

【专利技术属性】
技术研发人员:俞栋PKL毛
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1