XML格式学术文献表格的数值指标知识元提取方法技术

技术编号:40322720 阅读:22 留言:0更新日期:2024-02-09 14:18
本申请提供了一种XML格式学术文献表格的数值指标知识元提取方法和装置、电子设备及存储介质,涉及XML格式数据提取技术领域。该方法获取XML格式的学术文献数据,并通过第一预设标签对学术文献数据中表格的位置进行确定,得到学术文献数据中的初始表格;对初始表格合并的单元格进行扩展处理,得到扩展后的表格;获取扩展后的表格的属性内容;基于扩展后的表格的属性内容,对扩展后的表格进行数值指标知识元的提取。可以看到,本申请实施例可以自动识别数值有关的表格,并对表格的相关信息进行识别,最后基于表格相关信息输出规定格式的数值指标知识元,提升特定数值指标的获取效率。

【技术实现步骤摘要】

本申请涉及xml格式数据提取,尤其涉及一种xml格式学术文献表格的数值指标知识元提取方法和装置、电子设备及存储介质。


技术介绍

1、随着近几年来科学技术的不断发展,各行各业都呈现出对学术文献资源信息的极大需求,知网每年都会将不断激增的大量学术论文加工为xml(extensible markuplanguage,可扩展标记语言)格式,方便后续的存储和使用。文献的极大丰富和文献资源的有效使用不可避免的会产生一定的矛盾,知识元的提出,为文献资源的细粒化使用提供了新的思路。

2、目前知识元的提取大部分均以文本为基本单元,通过一定的规则或者模型输出所需的文本句子或者段落知识元信息,而表格作为学术文献中一种重要的知识内容表达形式,因为其结构的复杂性和多样性,根据表格结构准确提取出表格对应的内容信息存在一定的难度,如果全部采用人工处理的方式,确实能保证准确率但是会增加大量的时间成本,所以快速准确的从各类复杂的含有丰富统计实验数据的表格中提取到统一结构的知识元,成为了知识元提取的一个重要问题。


技术实现思路>

1、本文档来自技高网...

【技术保护点】

1.一种XML格式学术文献表格的数值指标知识元提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对初始表格合并的单元格进行扩展处理,得到扩展后的表格,包括:

3.根据权利要求2所述的方法,其特征在于,将初始表格合并的行单元格或列单元格中的内容复制还原到原来的非合并唯一单元格中,包括:

4.根据权利要求3所述的方法,其特征在于,所述扩展后的表格的属性内容包括表格行的数量、表格列的数量、表格标题行的数量、表格标题列的数量、表格标题行的内容、表格标题列的内容中的一项或多项。

5.根据权利要求4所述的方法,其特征在于,获取所述...

【技术特征摘要】

1.一种xml格式学术文献表格的数值指标知识元提取方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,对初始表格合并的单元格进行扩展处理,得到扩展后的表格,包括:

3.根据权利要求2所述的方法,其特征在于,将初始表格合并的行单元格或列单元格中的内容复制还原到原来的非合并唯一单元格中,包括:

4.根据权利要求3所述的方法,其特征在于,所述扩展后的表格的属性内容包括表格行的数量、表格列的数量、表格标题行的数量、表格标题列的数量、表格标题行的内容、表格标题列的内容中的一项或多项。

5.根据权利要求4所述的方法,其特征在于,获取所述扩展后的表格的属性内容,包括:

6.根据权利要求5所述的方法,其特征在于,基于所述扩展后的表格的属性内容,对所述扩展后的表格...

【专利技术属性】
技术研发人员:张涛朱骞
申请(专利权)人:山西同方知网数字出版技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1