信息处理系统和由信息处理系统实现的方法技术方案

技术编号:13346732 阅读:47 留言:0更新日期:2016-07-14 21:45
信息处理系统和由信息处理系统实现的方法。提供了一种方法,其中,当尝试注释文档时,知识管理器检测注释错误,如此,将文档分段为多个文档段。然后,当尝试注释多个文档段时,知识管理器检测另一个注释错误,从而导致一组未注释的文档段。知识管理器又生成标识该组未注释的文档段的通知。

【技术实现步骤摘要】

技术介绍
问题回答系统通过应用先进的自然语言处理、信息检索、知识表示、自动推理以及机器学习技术,回答以自然语言格式提出的问题。问题回答系统不同于典型的文档搜索技术,因为文档搜索技术返回按照与单词查询的相关性的顺序排序的文档的列表,而问题回答系统接收以自然语言表达的问题,在自然语言上下文中分析问题,并且返回对问题的精确回答。为了准备问题回答系统以接收问题并且提供精确的回答,软件开发人员针对诸如金融领域、旅游领域、医学领域等之类的特定领域,训练问题回答系统。在训练处理期间,问题回答系统从包括准确信息的可信的、传统的源(教科书、杂志)摄取文档语料库。在文档摄取期间,问题回答系统使用注释器向文档添加注释,其中,问题回答系统最终使用这些注释来标识并且返回对问题的精确回答。
技术实现思路
根据本公开内容的一个实施例,提供了一种方法,其中,当尝试注释文档时,知识管理器检测注释错误,如此,将文档分段为多个文档段。然后,当尝试注释多个文档段时,知识管理器检测另一个注释错误,从而导致一组未注释的文档段。知识管理器又生成标识该组未注释的文档段的通知。前面的内容是
技术实现思路
,如此,根据需要,包含简述、概括,以及省略了详细内容;因此,本领域技术人员将理解,
技术实现思路
只是说明性的,以及不是旨在以任何方式做出限制。在下面阐述的非限制性的详细描述中,只由权利要求书定义的本公开内容的其他方面、创造性特征和优点将变得清楚。附图说明通过参考各个附图,可以更好地理解本公开内容,其很多目标、特征和优点对于本领域技术人员将变得清楚,其中:图1描绘了计算机网络中的知识管理器系统的一个说明性实施例的示意图;图2示出了信息处理系统,更具体而言,处理器和共同组件,这是能够执行本文中描述的计算操作的计算机系统的简化示例;图3是描绘了知识管理器迭代地注释文档以标识文档中的归因于注释错误的位置的示例性图示;图4是描绘了被知识管理器迭代地分段为文档段以精确定位(pinpoint)文档中的归因于注释错误的区域的文档的示例性图示;图5是示出在基准文档摄取处理期间由知识管理器跟踪注释时间和注释器的特征集所采取的步骤的示例性流程图;图6是示例性日志表,该日志表包括当注释器正对基准文档进行注释时知识管理器记录的注释器的配置属性;图7是示出由知识管理器将文档摄取到知识库中所采取的步骤的示例性流程图;以及图8是示出由知识管理器迭代地分段并且注释文档以定位归因于注释错误的文档段所采取的步骤的示例性流程图。具体实施方式本文中所使用的术语只是为了描述特定实施例的目的,而不是旨在对本公开内容做出限制。如本文中所使用的,单数形式“一个”旨在还包括复数形式,除非上下文明确地另外指出。还应该进一步理解,当在本说明书中使用时,术语“包括”表示指定的特征、整体、步骤、操作、元件和/或组件的存在,而不排除一个或多个其他特征、整体、步骤、操作、元件、组件和/或其组合的存在或添加。下面的权利要求书中的所有装置或步骤加功能元件的对应的结构、材料、动作以及等同物旨在包括用于与具体请求保护的其他请求保护的元件相结合地执行功能的任何结构、材料或动作。对本公开内容的描述只是为了说明和描述的目的,而不是旨在详尽的公开内容或限于所公开形式的公开内容。对本领域的技术人员来说,在不偏离本公开内容的范围和精神的情况下,许多修改和变型将是明显的。实施例被选择和描述以便最好地说明本公开内容的原理和实际应用,并且使精通本技术的其他人能够理解,具有各种修改的各种实施例的公开内容适合于所想到的特定用途。本专利技术可以是系统、方法和/或计算机程序产品。计算机程序产品可包括计算机可读存储介质,该计算机可读存储介质上具有用于使得处理器执行本专利技术的各方面的计算机可读取的程序指令。计算机可读存储介质可以是可保留并存储供指令执行设备使用的指令的有形设备。计算机可读存储介质可以是,例如,但不仅限于,电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备、或前面各项的任何合适的组合。计算机可读存储介质的更具体的示例的非穷尽的列表包括下列各项:便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、静态随机存取存储器(SRAM)、便携式压缩光盘只读存储器(CD-ROM)、数字多功能盘(DVD)、记忆棒、软盘、以机械方式编码的设备(诸如穿孔卡或其上记录有指令的凹槽中的凸起结构)、以及前面各项的任何合适的组合。如本文中所使用的计算机可读存储介质将不被解释为瞬时信号本身,诸如无线电波或其他自由地传播的电磁波、通过波导或其他传输介质(例如,通过光缆传输的光脉冲)传播的电磁波、或通过线路传输的电信号。可以将本文中所描述的计算机可读取的程序指令从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,因特网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配卡或网络接口从网络接收计算机可读取的程序指令,并且转发计算机可读取的程序指令,以存储在相应的计算/处理设备内的计算机可读存储介质中。用于执行本专利技术的操作的计算机可读取的程序指令可以是汇编指令、指令集体系结构(ISA)指令、机器指令、与机器有关的指令、微代码、固件指令、状态设置数据、或以一种或多种编程语言(包括面向对象编程语言(诸如Smalltalk、C++等)以及常规过程编程语言(诸如“C”编程语言或者类似的编程语言))的任何组合编写的源代码或目标代码。计算机可读取的程序指令可以作为独立软件包完全在用户的计算机上执行,部分地在用户的计算机上执行,部分地在用户的计算机上并且部分地在远程计算机上执行,或者完全在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络连接到用户的计算机,包括局域网(LAN)或广域网(WAN),或者可以连接到外部计算机(例如,通过使用因特网服务提供商的因特网)。在某些实施例中,例如,包括可编程逻辑电路、现场可编程门阵列(FPGA)、或可编程逻辑阵列(PLA)的电子线路可以通过利用计算机可读取的程序指令的状态信息来个性化电子线路,以执行计算机可读取的程序指令本文档来自技高网...

【技术保护点】
一种由包括存储器和处理器的信息处理系统实现的方法,所述方法包括:由所述处理器响应于当尝试注释第一文档段时检测到第一注释错误,将第一文档段分段为多个第二文档段;当尝试注释所述多个第二文档段中的至少一个时,检测一个或多个第二注释错误,从而导致一个或多个未注释的第二文档段;以及生成标识所述一个或多个未注释的第二文档段中的至少一个的通知。

【技术特征摘要】
2015.01.03 US 14/588,9281.一种由包括存储器和处理器的信息处理系统实现的方法,所述
方法包括:
由所述处理器响应于当尝试注释第一文档段时检测到第一注释错
误,将第一文档段分段为多个第二文档段;
当尝试注释所述多个第二文档段中的至少一个时,检测一个或多
个第二注释错误,从而导致一个或多个未注释的第二文档段;以及
生成标识所述一个或多个未注释的第二文档段中的至少一个的通
知。
2.如权利要求1所述的方法,其中,所述注释由注释器执行,所
述方法还包括:
标识与所述注释器对应的最小的段大小,其中,所述最小的段大
小对应于所述注释器被配置成注释的最小的文档部分;
选择所述未注释的第二文档段中的一个;以及
响应于确定所选定的未注释的第二文档段大于所述最小的段大
小,将所选定的未注释的第二文档段分段为多个第三文档段。
3.如权利要求2所述的方法,还包括:
响应于尝试注释所述多个第三文档段中的选定的一个,检测第三
注释错误;
将所选定的第三文档段分段为多个第四文档段,第四文档段各自
对应于所述最小的段大小;
确定所述多个第四文档段中的选定的一个生成第四注释错误;以

在所述通知中包括标识所选定的第四文档段的标识符。
4.如权利要求2所述的方法,还包括:
注释所述多个第三文档段中的每一个;以及
响应于确定所述注释器成功地注释所述多个第三文档段中的每一
个,修改所述最小的段大小,以对应于所选定的未注释的第二文档
段。
5.如权利要求1所述的方法,其中,在检测到第一注释错误之
前,所述方法还包括:
由注释器注释文档语料库中所包括的一个或多个基准文档;
基于所述一个或多个基准文档的注释,记录所述注释器的基准注
释时间;以及
记录与所述注释器对应的注释器特征集,其中,所述注释特征集
包括至少一个文档大小和与所述一个或多个基准文档中的至少一个对
应的至少一个量的注释。
6.如权利要求5所述的方法,还包括:
标识第一文档段的文档特征集;
响应于确定所述文档特征集匹配所述注释器特征集,基于所述基
准注释时间,计算注释所述文档的估计的注释时间;以及
响应于确定尝试注释第一文档段的所述注释器的处理中的注释时
间长于估计的注释时间,生成第一注释错误。
7.如权利要求6所述的方法,还包括:
通过比较所述文档特征集与所述注释器特征集,计算注释时间调
整值;以及
响应于确定所述处理中的注释时间长于估计的注释时间和所述注
释时间调整值的组合,生成第一注释错误。
8.一种信息处理系统,包括:
一个或多个处理器;
耦合到所述处理器中的至少一个的存储器;以及
存储在所述存储器中的并且由所述处理器中的至少一个...

【专利技术属性】
技术研发人员:C·O·艾仑A·R·福瑞德K·里姆
申请(专利权)人:国际商业机器公司
类型:发明
国别省市:美国;US

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1