【技术实现步骤摘要】
一种文档结构化数据嵌入方法及系统
本专利技术涉及计算机知识管理领域,更具体地涉及一种文档结构化数据嵌入方法及系统。
技术介绍
随着计算机无纸化办公的不断发展,在工程领域中纸质文档已大部被电子文档所替代,主要是便于人工阅读、使用、传递和备案。然而电子文档在应用过程中由于存在专业领域、软件、管理和使用手法的不同,文档的存储格式、文档表现形式均不相同,目前采用人工方式完成文档编辑、管理和文档规范化,由于人工方式存在诸多主观性加之所完成文档均为非结构化,这给自动化的知识发现和提取带来了难度。以工程项目技术文档为例,各专业文档中带有的数据参数比较多,传统的专业文档按照专业领域不同文档版面格式及技术指标表达形式也不尽相同,对数据的精度要求也不统一。因此这类文档虽满足专业使用习惯,但文档规范化程度、数据精度要求很难通过人工控制手段来有效控制。由于文档的种类繁多且都是非结构化,文档数据的采集和提取方面,目前采用语义分析和提取能够有效发现关键字,但很难准确提取到符合工程要求的参数、数据及描述信息。由于工程项目文档的质量直接影响到工程的施工质量和安全,靠人工控制、提取和转换已不能满足工程领域对文档的需求。
技术实现思路
针对上述现有技术的不足,本申请提供了一种文档结构化数据嵌入方法及系统,以解决现有技术无法同时满足工程领域文档的传统使用需求和文档规范化控制、关键指标参数精度控制、自动化提取文档数据和知识发现及提取的问题。为了实现上述目的,本专利技术采用以下技术方案:一种文档结构化数据嵌入方法, ...
【技术保护点】
1.一种文档结构化数据嵌入方法,其特征在于,包括以下步骤:/n(1)构建文档结构化框架模板,根据专业文档规范化标准,按照专业领域、文档类型及主题将文档划分为不同主题章节、标题段落和描述区域的框架结构,并按照文档框架结构与目标内容的对应关系,关联结构化数据标签、可扩展的半结构化数据标签,形成可反复引用的文档结构化框架模板;/n(2)通过文档结构化框架模板编辑和管理文档,根据专业领域、文档类型及主题选取相对应的模板,预加载到文档编辑器中,通过与用户交互的方式完成文档的编辑与管理,并通过这种交互方式按照模板确定的格式,动态完成与文档框架结构相对应的结构化数据标签、可扩展的半结构化数据标签的编辑和管理;/n(3)结构化数据采集,将通过文档编辑器编辑后的文档数据按照文档结构化框架模板和相对应的结构化数据标签及可扩展的半结构化数据标签的关联关系,提取并转化为xml结构体数据和文档属性字段;/n(4)文档结构化数据嵌入,从所述通过文档结构化框架模板编辑和管理文档过程得到由用户根据模板框架编辑完成的文档并将其作为文档主体,并将所述结构化数据采集阶段中获得的xml结构体数据和文档属性字段按照一种嵌入体格 ...
【技术特征摘要】
1.一种文档结构化数据嵌入方法,其特征在于,包括以下步骤:
(1)构建文档结构化框架模板,根据专业文档规范化标准,按照专业领域、文档类型及主题将文档划分为不同主题章节、标题段落和描述区域的框架结构,并按照文档框架结构与目标内容的对应关系,关联结构化数据标签、可扩展的半结构化数据标签,形成可反复引用的文档结构化框架模板;
(2)通过文档结构化框架模板编辑和管理文档,根据专业领域、文档类型及主题选取相对应的模板,预加载到文档编辑器中,通过与用户交互的方式完成文档的编辑与管理,并通过这种交互方式按照模板确定的格式,动态完成与文档框架结构相对应的结构化数据标签、可扩展的半结构化数据标签的编辑和管理;
(3)结构化数据采集,将通过文档编辑器编辑后的文档数据按照文档结构化框架模板和相对应的结构化数据标签及可扩展的半结构化数据标签的关联关系,提取并转化为xml结构体数据和文档属性字段;
(4)文档结构化数据嵌入,从所述通过文档结构化框架模板编辑和管理文档过程得到由用户根据模板框架编辑完成的文档并将其作为文档主体,并将所述结构化数据采集阶段中获得的xml结构体数据和文档属性字段按照一种嵌入体格式进行封装,根据目标文档文件存储格式特性,预先通过嵌入点可靠性验证,确定结构体数据在目标文档中的嵌入位置,并将其嵌入到目标格式文件中得到嵌入结构化数据的文档;
(5)从嵌入结构化数据的文档中提取结构化数据,通过读取所述嵌入结构化数据的文档,按照嵌入体格式特征提取文档中的结构体数据并获取文档相关属性信息,根据模板属性值匹配到相应模板,以此模板提供的框架结构为特征,提取结构体数据中的结构化数据和可扩展的半结构化数据。
2.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述标题段落包括但不限于内容范围、表格样式、文字字体、文字缩进、行间距。
3.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述结构化数据标签用于标记文档中与主题内容、标题段落和描述区域相关且已明确的描述和关键指标参数。
4.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述可扩展的半结构化数据标签用于标记文档中与主题内容、标题段落和描述区域相关但无法明确的描述和关键指标参数。
5.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述文档属性字段包括但不限于文档标题、文档主题分类、模板信息、作者、文档版本号、文档摘要、关键字、数字签名人信息及数字签名。
6.一种文档结构化数据嵌...
【专利技术属性】
技术研发人员:杨建庆,谢现举,孙双魁,张春花,罗江怡,吴淼,彭梦姚,罗潮霞,刘杰,白有为,刘康,王海燕,孙永花,李晶晶,周彪,魏清,李祥花,田蕾,
申请(专利权)人:西宁宁光工程咨询有限公司,中国电建集团青海省电力设计院有限公司,
类型:发明
国别省市:青海;63
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。