【技术实现步骤摘要】
本申请主要地涉及一种改进的数据处理装置和方法,并且更具体地涉及用于从电子文档中的表格结构提取语义关系的机制。
技术介绍
自然语言处理(NLP)系统、问答创建(Q&A)系统等利用电子文档的文本内容分析以执行它们的各种活动。例如可从纽约阿芒克的国际商业机器(IMB)公司获得的称为WatsonTM的Q&A系统分析电子文档的无结构文本内容,以回答问题并且从文本内容推导结论。尽管这些系统对文本内容行之有效,但是许多时候在电子文档中的表格结构中呈现或者捕获知识和信息。这样的NLP和Q&A系统不能充分地处理这样的表格结构以收集在这些表格结构中呈现的信息和知识。
技术实现思路
在一个说明性实施例中,提供一种在数据处理系统中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法。该方法包括确定表格数据结构内的单元配置。该方法还包括基于确定的单元配置来标识表格数据结构内的一个或者多个超单元。另外,该方法包括对于一 ...
【技术保护点】
一种在数据处理系统中用于提取在与电子文档关联的表格数据结构中的表格内容之间的语义关系的方法,所述方法包括:由所述数据处理系统确定所述表格数据结构内的单元配置;由所述数据处理系统基于确定的所述单元配置来标识所述表格数据结构内的一个或者多个超单元;对于所述一个或者多个超单元中的每个超单元,将与所述超单元对应的表格数据转换成用于所述超单元的语义关系语句,其中所述语义关系语句标识在与所述超单元对应的所述表格数据的部分之间的一个或者多个关系;以及由所述数据处理系统将用于所述超单元中的每个超单元的所述语义关系语句与所述表格数据结构关联地存储。
【技术特征摘要】
2012.10.30 US 13/664,1441.一种在数据处理系统中用于提取在与电子文档关联的表格数
据结构中的表格内容之间的语义关系的方法,所述方法包括:
由所述数据处理系统确定所述表格数据结构内的单元配置;
由所述数据处理系统基于确定的所述单元配置来标识所述表格
数据结构内的一个或者多个超单元;
对于所述一个或者多个超单元中的每个超单元,将与所述超单
元对应的表格数据转换成用于所述超单元的语义关系语句,其中所
述语义关系语句标识在与所述超单元对应的所述表格数据的部分之
间的一个或者多个关系;以及
由所述数据处理系统将用于所述超单元中的每个超单元的所述
语义关系语句与所述表格数据结构关联地存储。
2.根据权利要求1所述的方法,其中将与所述超单元对应的表
格数据转换成语义关系语句包括:对于每个超单元,
由所述数据处理系统将所述表格数据结构的、与所述超单元关
联的内容映射到具有定义的格式的元组数据结构;以及
基于用于所述超单元的所述元组数据结构来生成用于所述超单
元的语义关系语句。
3.根据权利要求2所述的方法,其中基于用于所述超单元的所
述元组数据结构来生成用于所述超单元的所述语义关系语句包括将
语义关系语句模板应用于所述元组数据结构以生成用于所述超单元
的语义关系语句。
4.根据权利要求1所述的方法,还包括:
使用与所述表格数据结构关联的语义关系语句来执行用于分析
所述电子文档的分析操作。
5.根据权利要求4所述的方法,其中所述分析操作包括对所述
电子文档的内容执行的自然语言处理操作或者问答创建操作中的至
少一个操作,其中所述电子文档的所述内容包括所述表格数据结构。
6.根据权利要求1所述的方法,其中所述语义关系语句包括被
配置用于由自然语言处理分析引擎解析的自然语言句子结构。
7.根据权利要求1所述的方法,其中所述语义关系语句包括结
构化查询语言(SQL)语句、资源描述框架(RDF)语义三元组或者
N3语义三元组中的至少一项。
8.根据权利要求1所述的方法,其中确定所述表格数据结构内
的单元配置包括取回与所述表格数据结构关联的元数据,所述元数
据标识所述表格数据结构的各部分的大小和所述表格数据结构的各
部分的配置。
9.根据权利要求1所述的方法,其中确定...
【专利技术属性】
技术研发人员:S·N·格拉德,M·G·梅格里安,
申请(专利权)人:国际商业机器公司,
类型:发明
国别省市:美国;US
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。