知识抽取方法及装置制造方法及图纸

技术编号:15649981 阅读:51 留言:0更新日期:2017-06-17 02:53
本发明专利技术实施例公开了一种知识抽取方法,包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。本发明专利技术实施例还公开了一种知识抽取装置。

【技术实现步骤摘要】
知识抽取方法及装置
本专利技术涉及信息处理领域,尤其涉及一种知识抽取方法及装置。
技术介绍
计算机科学相关技术的发展在给人们的工作和生活带来便利的同时,也提出了更加智能化的需求,学术界及工业界都投入大量人力物力研究智能化技术,本体知识系统作为人工智能学科最重要的工业化和商业化产物,辅助计算机科学领域向更加智能化方向发展,为了构建本体知识,人们探索了很多方法来帮助从非结构化的文本数据中提取知识,由于互联网页面包含的数据和知识丰富,为本体知识构建提供了宝贵资源,而互联网页面中的表格数据由于结构化的组织形式,有利于实现知识与数据之间的映射,通过抽取网页表格数据用于本体知识构建,将有效帮助完成本体知识构建过程;目前,本体知识的自动化抽取已经成为行业和产业向前推进的关键部分。现有本体知识抽取技术,主要集中在本体知识构建过程的整体实现上,较多注重系统或设备本身,只是提供了人机交互接口,辅助完成本体知识构建的各个流程,较少涉及知识自动化抽取技术的创新,知识抽取大多需要依赖专家进行抽取规则或训练数据的整理,现有技术实质上是辅助进行人工整理工作的半自动化抽取系统,并非真正意义上的自动化抽取,且存在由于专家和数据的知识偏差导致后续错误的风险,抽取成本很高;如此,会降低抽取效率。
技术实现思路
有鉴于此,本专利技术实施例期望提供一种知识抽取方法及装置,能实现表格数据的自动化抽取,降低了抽取成本,提高了抽取效率。为达到上述目的,本专利技术的技术方案是这样实现的:本专利技术实施例提供一种知识抽取方法,包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。在上述方案中,所述获取表格数据的语义相似度,根据所述语义相似度确定表格结构包括:将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。在上述方案中,所述根据所述表格结构确定表头属性名称包括:根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述初始表头进行属性合并,确定表头属性名称。在上述方案中,所述抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值之前,所述方法还包括:根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。本专利技术实施例还提供一种知识抽取装置,包括:获取模块,用于获取表格数据的语义相似度;确定模块,用于根据所述获取模块获取的所述语义相似度确定表格结构;还用于根据所述表格结构确定表头属性名称;抽取模块,用于抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。在上述方案中,所述获取模块,具体用于将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;所述确定模块,具体用于根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。在上述方案中,所述确定模块,具体用于根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述表格数据的初始表头进行合并,确定表头属性名称。在上述方案中,所述装置还包括:对齐模块,用于根据所述表头属性名称,对所述表头属性名称对应的表格内容进行合并。本专利技术实施例提供的知识抽取方法及装置,通过获取表格数据的语义相似度,利用表格数据自身的语义特征来识别表格结构,通过抽取表头属性名称及表头属性名称对应的表格内容分别作为知识属性名称和属性值,得到可直接用于本体知识构建的知识数据,整个表格数据抽取过程并不受限于任何先验知识,不需要人工介入;如此,能实现表格结构识别和表格数据抽取的自动化,降低了知识抽取的人力成本,进而可提高本体知识的抽取效率。附图说明图1为本专利技术实施例提供的知识抽取方法的流程图;图2为本专利技术实施例提供的一份网页表格示例图;图3为本专利技术实施例提供的另一份网页表格示例图;图4为本专利技术实施例提供的再一份网页表格示例图;图5为本专利技术实施例提供的知识抽取装置的结构示意图;图6为本专利技术实施例提供的知识抽取装置的另一结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。图1为本专利技术实施例提供的知识抽取方法的流程图,如图1所示,该方法包括:步骤101、获取表格数据的语义相似度,根据所述语义相似度确定表格结构。本专利技术实施例提供的知识抽取方法,可以应用于人工智能、计算语言、数据原理、知识工程、知识表示、语言工程、数据设计、信息模型、信息集成、信息检索、信息摘要、知识管理、法律信息系统、生物信息系统等领域;本专利技术实施例的执行主体可以为知识抽取装置。在本专利技术实施例中,所述表格数据可以为超文本标记语言(HTML,HyperTextMark-upLanguage)网页中的表格数据;HTML网页中使用<表格(table)></table>标签表示表格,其中又使用<tr></tr>和<td></td>划分行列数据;然而并非所有<table>标签内的数据都表达结构化知识体系,也可能是伪装表格,例如,用于页面排版的表格数据,为了页面排版的美观整洁,重在样式及内容的编辑,一般不太严格遵循表格结构化组织形式。在本专利技术实施例中,至少可以通过以下任一方法筛选掉这类伪装表格:1、利用表格中的两个参数:跨列数(colspan)和跨行数(rowspan),初步统计表格布局情况,排除不符合表格结构化组织形式的伪装表格;2、根据表格数据的语义分析排除部分伪装表格。对于筛选方法1,符合结构化组织形式的表格数据会通过colspan和rowspan参数布局为m*n的结构化形式,便于体现系统知识结构,达到使用表格形式表现数据的意义。在本专利技术实施例中,在获取到HTML网页中的表格数据后,初步统计整理该表格的组织结构,若该表格不满足m*n形式,则将其淘汰;具体步骤如下:1)逐行读取表格数据,记录每行包含列数,每行包含列数为该行每项数据的colspan的总和;如果某项本文档来自技高网...
知识抽取方法及装置

【技术保护点】
一种知识抽取方法,其特征在于,所述方法包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。

【技术特征摘要】
1.一种知识抽取方法,其特征在于,所述方法包括:获取表格数据的语义相似度,根据所述语义相似度确定表格结构;根据所述表格结构确定表头属性名称;抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值。2.根据权利要求1所述的方法,其特征在于,所述获取表格数据的语义相似度,根据所述语义相似度确定表格结构包括:将表格数据按照横表结构拆分为第一表头和多个第一表格内容时,获取所述第一表头与各所述第一表格内容间的语义相似度、及各所述第一表格内容之间的语义相似度;将所述表格数据按照竖表结构拆分为第二表头和多个第二表格内容时,获取所述第二表头与各所述第二表格内容间的语义相似度、及各所述第二表格内容之间的语义相似度;根据所述第一表头与各所述第一表格内容间的语义相似度、各所述第一表格内容之间的语义相似度、所述第二表头与各所述第二表格内容间的语义相似度、各所述第二表格内容之间的语义相似度,及预设的表头与表格内容间的语义相似度阈值和表格内容之间的语义相似度阈值,确定表格结构。3.根据权利要求1所述的方法,其特征在于,所述根据所述表格结构确定表头属性名称包括:根据所述表格结构确定所述表格数据的初始表头;在确定所述初始表头存在属性名称的总分结构时,对所述初始表头进行属性合并,确定表头属性名称。4.根据权利要求1所述的方法,其特征在于,所述抽取所述表头属性名称及所述表头属性名称对应的表格内容分别作为知识属性名称和属性值之前,所述方法还包括:根据所述表头属性名称,对所述表头属性名称对应...

【专利技术属性】
技术研发人员:杨文漪
申请(专利权)人:中国移动通信集团公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1