当前位置: 首页 > 专利查询>微软公司专利>正文

处理文档中的搭配错误制造技术

技术编号:2828024 阅读:124 留言:0更新日期:2012-04-11 18:40
访问一句子,并基于该句子生成至少一查询。可以例如使用网络搜索引擎将至少一查询与文档集合内的文本进行比较。可以基于该至少一查询和文档集合内的文本的比较来检测和/或纠正句子中的搭配错误。

【技术实现步骤摘要】
【国外来华专利技术】处理文档中的搭配错误站旦 冃足以下讨论仅提供了一般背景信息,不能用于帮助确定所要求保护的主题的范围。 随着全球经济的日益增长,和因特网的快速发展,全世界的人正在不断熟悉用 非母语的语言进行写作。不幸的是,对一些拥有显著不同的文化和写作风格的社会 而言,能够用某些非母语进行写作常常成为障碍。当用非母语(例如英语)进行写作时, 非母语说话者(例如,讲汉语、日语、韩语或其它非英语语言的人)通常会犯语言使用 错误。这些类型的错误可以包括语法错误和例如动词-宾语、形容词-名词、副词-动 词等搭配的不当使用。许多人具有用恰当的语法以非母语进行写作的能力,但他们仍然可能犯两个单词之间的搭配错误。还有其他人会同时犯语法错误和其它错误例如两个单词间的搭 配错误。尽管拼写检查和语法检查程序可用来纠正语法错误,但尤其鉴于两个单词 之间的搭配错误语法可能是正确,因此难以检测和/或纠正这些错误。因此,语法检 查器一般几乎无法对检查与单词间搭配有关的错误提供帮助。在以下讨论中用英语 作为非母语的例子,但这些问题在其它语界中同样存在。例如,考虑以下包含使得句子即使语法上正确也不是道地的英语的搭配错误的句子。.1.Open the light(开灯).2. Everybody hates the crowded traffic on weekends(人人者卩讨厌周末拥宇齐的交通).3. This is a check of USS500(这是一张500美元的支票).4.1 congratulate you for your success(我对你的成功表示祝贺).这些句子的道地的英语版本应该是1 .Turn on the light(开灯).2. Everybody hates the heavy traffic on weekends(人人都讨厌周末拥挤的交通).3. This is a check for USS500(这是一张500美元的支票).4.1 congratulate you on your seccess(我对你的成功表示祝贺). 考虑汉语用户的情况,作为非英语母语说话者所面临的障碍的例子。在文化、背景和思考习惯方面,中国人常常会造出合乎语法却不自然的英语句子。例如,中 国人往往将中文中的主语直接翻译成英语中的主语,对宾语和动词也同样。当用英 语写作时,中国人常会遇到决定动词和介词、形容词和名词、动词和名词等之间搭 配的困难。而且,在特殊的领域像商业领域,还需要特殊的写作技巧和风格。非母语说话者出于阅读(一种解码过程)的目的主要会使用通用字典,但这些字典 无法提供对写作(一种编码过程)的足够支持。它们仅提供单个单词的解释,并且它们 通常不会提供解释相关短语和搭配的足够信息。而且,即使字典中提供了一些信息, 要从字典中获得这类信息仍然很难。另一方面,目前广泛采用的语法检査工具对检 查易犯的语法错误具有有限的能力,但不能检测搭配错误。概述提供本概述以便以简化的形式介绍一些将在以下详细描述中进一步描述的概 念。本概述不旨在标识所要求保护的主题的关键特征或必要特征,也不旨在用于帮 助确定所要求保护主题的范围。访问一句子,并给予该句子生成至少一查询。可以例如使用web搜索引擎将至 少一查询与文档集合内的文本进行比较。可以基于对至少一查询和文档集合内的文本的比较来检测和/或纠正句子中的搭配错误。附图简述图l是一般计算环境的框图。图2是用于检测和纠正搭配错误的系统的流程图。 图3是用于检测和纠正搭配错误的方法的流程图。图4是查询生成模块的框图。图5是检测搭配错误的方法的流程图。图6是提出候选搭配纠正的方法的流程图。详细描述附图说明图1说明了可在其上实现本专利技术的合适的计算系统环境100的例子。所述计算 系统环境100仅仅是合适的计算环境的一个例子,而并不打算对本专利技术的使用范围 或功能提出任何限制。也不应该将所述计算环境100解释为对示范性操作环境100 中所说明的任何元件或元件的组合有依赖或需求。本专利技术可用于众多其他通用或专用的计算系统环境或配置。可能适用于本专利技术 的公知计算系统、环境和/或配置的例子包括,但不限于个人计算机、服务器计算 机、手持或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消 费者电子产品、网络PC、小型计算机、大型计算机、电话系统、包括上述任何系统 或装置等的分布式计算环境。可以在诸如程序模块等由计算机执行的计算机可执行指令的上下文中描述本发 明。 一般,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对 象、组件、数据结构等。还可以在由通过通信网络链接的远程处理设备执行任务的 分布式计算环境中实现本专利技术。在分布式计算环境中,程序模块可以位于本地和远 程计算机存储介质包括存储器存储设备中。程序和模块执行的任务在附图的协助下 在以下描述。本领域技术人员可以将描述和附图实现为处理器可执行指令,其可以 被编写在任何形式的计算机可读介质上。参阅图l,用于实现本专利技术的示例性系统包括一计算机iio形式的通用计算设备。计算机110的组件可包括,但不限于处理单元120、系统存储器130和将各种系统组件包括系统存储器耦合到处理单元120的系统总线121。所述系统总线121可以是多种类型的总线结构中的任何一种,包括存储器总线或存储器控制器、外围总线和 利用任何各种总线结构的局部总线。为了举例而非限制,此类体现结构包括工业标准结构(ISA)总线、微通道结构(MCA)总线、增强ISA(EISA)总线、视频电子标准协 会(VESA)局部总线和周边元件扩展接口(PCI)总线也称为夹层(Mezzanine)总线。计算机110通常包括各种计算机可读介质。计算机可读介质可以是任何可以被 计算机110访问的可用介质,包括易失性和非易失性介质、可移动和不可移动介质。 为了举例而非限制,计算机可读介质可包括计算机存储介质和通信介质。计算机存储介质包括以任何方法或技术实现信息存储的易失性和非易失性、可移动和不可移 动介质,这些信息诸如计算机可读指令、数据结构、程序模块或其它数据。计算机 存储介质包括但不限于RAM、 ROM、 EEPROM、闪存或其它存储技术、CD-ROM、 数字通用盘(DVD)或其它光盘存储、盒式磁带、磁带、磁盘存储器或其它磁性存储设 备,或任何其它可用于存储所需信息且可由计算机110访问的介质。通信介质通常 在诸如载波或其它传输机制的已调制数据信号中体现为计算机可读指令、数据结构、 程序模块或其它数据,且包括任何信息传递介质。术语已调制数据信号指以编 码信号中的信息的方式设置或改变其特征集中的一种或多种特征的信号。为了举例 而非限制,通信介质包括有线介质例如有线网络或直接线连接,和无线介质例如声学、RF、红外线和其它无线介质。任何上述组合也应该包括在计算机可读介质的范 围内。所述系统存储器130包括易失性和非易失性存储器形式的计算机存储介质,例 如只读存储器(ROM)13和随机存取存储器(RAM)132。包含例如在启动时有助于在 计算机110内各元件之间传递信息的基本例程的基本输入/输出系统133(BIOS)通常 存储于ROM 131中。RAM 132通常包含可以被处理单元120立即访问本文档来自技高网...

【技术保护点】
一种处理文档中信息的方法,包括:    访问所述文档中文本的句子;    基于所述句子生成至少一查询;    将所述至少一查询与文档集合内的文本进行比较;和    基于所述对至少一查询和文档集合内文本的比较来检测搭配错误。

【技术特征摘要】
【国外来华专利技术】US 2005-7-8 11/177,1361.一种处理文档中信息的方法,包括访问所述文档中文本的句子;基于所述句子生成至少一查询;将所述至少一查询与文档集合内的文本进行比较;和基于所述对至少一查询和文档集合内文本的比较来检测搭配错误。2. 如权利要求1所述的方法,其特征在于,还包括对所述句子进行语法分析来 标识其中包含的词性,且基于所标识的词性生成所述至少一査询。3. 如权利要求1所述的方法,其特征在于,还包括对所检测出的搭配错误提出 备选的候选。4. 如权利要求3所述的方法,其特征在于,还包括对候选进行分级。5. 如权利要求1所述的方法,其特征在于,所述搭配错误的类型至少包括动词-名词、介词-名词、形容词-名词和动词-副词的至少其中之一。6. 如权利要求1所述的方法,其特征在于,还包括基于文本的句子生成包括所述句子的句子查询,生成包括所述文本句子的块的块查询和以及生成包括所述文本句子的中心词对的单词查询。7.一种处理信息的方法,包括访问包含造成搭配错误的单词的句子; 生成至少一个包含句子各部分而不带有所述单词的查询; 将所述至少一个査询提交到搜索模块以获得搜索结果;和 基于搜索结果为所述句子中的所述单词标识至少一候选替换单词。8. 如权利要求7所述的方法,其特征在于,还包括标识候选替换单词的列表和 对所述列表进行分级。9. 如权利要求7...

【专利技术属性】
技术研发人员:HW洪J高M周
申请(专利权)人:微软公司
类型:发明
国别省市:US[美国]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1