一种文档结构化数据嵌入方法及系统技术方案

技术编号:24456442 阅读:38 留言:0更新日期:2020-06-10 15:41
本发明专利技术涉及计算机知识管理领域,具体涉及一种文档结构化数据嵌入方法及系统,该系统包括模板生成器、文档编辑器、结构化数据采集器、数据认证处理器、结构化数据控制器、模板库和数据提取与转换接口,具体为构建文档结构化框架模板,预加载到文档编辑器中,完成结构化数据标签及可扩展的半结构化数据标签的编辑,编辑后的文档数据提取并转化为xml结构体数据和文档属性字段,将结构体数据嵌入到目标格式文件中,提取结构体数据中的结构化数据和可扩展的半结构化数据。本发明专利技术方法使文档即满足人工阅读、理解、使用和备案需求又可实现嵌入结构化数据的文档的自动化采集与处理,并可有效控制文档的规范化程度和数据精度要求。

A method and system of document structured data embedding

【技术实现步骤摘要】
一种文档结构化数据嵌入方法及系统
本专利技术涉及计算机知识管理领域,更具体地涉及一种文档结构化数据嵌入方法及系统。
技术介绍
随着计算机无纸化办公的不断发展,在工程领域中纸质文档已大部被电子文档所替代,主要是便于人工阅读、使用、传递和备案。然而电子文档在应用过程中由于存在专业领域、软件、管理和使用手法的不同,文档的存储格式、文档表现形式均不相同,目前采用人工方式完成文档编辑、管理和文档规范化,由于人工方式存在诸多主观性加之所完成文档均为非结构化,这给自动化的知识发现和提取带来了难度。以工程项目技术文档为例,各专业文档中带有的数据参数比较多,传统的专业文档按照专业领域不同文档版面格式及技术指标表达形式也不尽相同,对数据的精度要求也不统一。因此这类文档虽满足专业使用习惯,但文档规范化程度、数据精度要求很难通过人工控制手段来有效控制。由于文档的种类繁多且都是非结构化,文档数据的采集和提取方面,目前采用语义分析和提取能够有效发现关键字,但很难准确提取到符合工程要求的参数、数据及描述信息。由于工程项目文档的质量直接影响到工程的施工质量和安全,靠人工控制、提取和转换已不能满足工程领域对文档的需求。
技术实现思路
针对上述现有技术的不足,本申请提供了一种文档结构化数据嵌入方法及系统,以解决现有技术无法同时满足工程领域文档的传统使用需求和文档规范化控制、关键指标参数精度控制、自动化提取文档数据和知识发现及提取的问题。为了实现上述目的,本专利技术采用以下技术方案:一种文档结构化数据嵌入方法,包括以下步骤:(1)构建文档结构化框架模板,根据专业文档规范化标准,按照专业领域、文档类型及主题将文档划分为不同主题章节、标题段落和描述区域的框架结构,并按照文档框架结构与目标内容的对应关系,关联结构化数据标签、可扩展的半结构化数据标签,形成可反复引用的文档结构化框架模板;(2)通过文档结构化框架模板编辑和管理文档,根据专业领域、文档类型及主题选取相对应的模板,预加载到文档编辑器中,通过与用户交互的方式完成文档的编辑与管理,并通过这种交互方式按照模板确定的格式,动态完成与文档框架结构相对应的结构化数据标签、可扩展的半结构化数据标签的编辑和管理;(3)结构化数据采集,将通过文档编辑器编辑后的文档数据按照文档结构化框架模板和相对应的结构化数据标签及可扩展的半结构化数据标签的关联关系,提取并转化为xml结构体数据和文档属性字段;(4)文档结构化数据嵌入,从所述通过文档结构化框架模板编辑和管理文档过程得到由用户根据模板框架编辑完成的文档并将其作为文档主体,并将所述结构化数据采集阶段中获得的xml结构体数据和文档属性字段按照一种嵌入体格式进行封装,根据目标文档文件存储格式特性,预先通过嵌入点可靠性验证,确定结构体数据在目标文档中的嵌入位置,并将其嵌入到目标格式文件中得到嵌入结构化数据的文档;(5)从嵌入结构化数据的文档中提取结构化数据,通过读取所述嵌入结构化数据的文档,按照嵌入体格式特征提取文档中的结构体数据并获取文档相关属性信息,根据模板属性值匹配到相应模板,以此模板提供的框架结构为特征,提取结构体数据中的结构化数据和可扩展的半结构化数据。进一步地,所述标题段落包括但不限于内容范围、表格样式、文字字体、文字缩进、行间距。进一步地,所述结构化数据标签用于标记文档中与主题内容、标题段落和描述区域相关且已明确的描述和关键指标参数。进一步地,所述可扩展的半结构化数据标签用于标记文档中与主题内容、标题段落和描述区域相关但无法明确的描述和关键指标参数。进一步地,所述文档属性字段包括但不限于文档标题、文档主题分类、模板信息、作者、文档版本号、文档摘要、关键字、数字签名人信息及数字签名。同时,本申请还提供一种文档结构化数据嵌入系统,包括模板生成器、文档编辑器、结构化数据采集器、数据认证处理器、结构化数据控制器、模板库和数据提取与转换接口;所述模板生成器由文档结构体提取模块、模板匹配模块、文档框架生成模块和结构化字段生成模块组成;所述文档编辑器由加载文档框架模块、文档编辑与显示单元模块、结构化数据标签化编辑与显示单元模块、结构化文档生成模块、文档类型通用编辑器接口组成,实现新建文档、已嵌入结构化数据文档、原始非结构化文档的编辑和结构化数据嵌入、显示和修改操作;所述结构化数据采集器由数据采集模块、文档属性及结构化数据提取模块、xml结构体数据生成模块组成,实现所述文档编辑器提供的数据按照与文档框架相对应的结构化数据标签、可扩展的半结构化数据标签的关联关系提取并转化为xml结构体数据和文档属性字段;所述数据认证处理器采用数字签名,实现对xml结构体数据的数字签名和签名验证,确保xml结构体数据在未经授权时数据不被篡改和干预,使xml结构体数据满足完整性和可用性要求;所述结构化数据控制器由待嵌入的结构体数据封装模块、数据验证状态确认及提取模块、匹配文件类型及嵌入位置控制模块组成,实现待嵌入结构化数据体的封装、符合所述数据提取与转换接口要求的数据封装和确定预嵌入结构化数据体在目标文件中的存储位置;所述数据提取与转换接口实现与数据应用系统的对接和数据转换;所述模板库由专用模板库和通用模板库组成,所述专用模板库用于存放符合专业领域分类标准的针对具体工作需求的专门文档模板的关系型数据库,所述通用模板库用于存放符合专业领域分类标准的针对专业特点的通用型模板的关系型数据库。进一步地,所述模板生成器实现通过所述嵌入结构化数据文档的文档属性或由用户根据原始非结构化文档、新建文档的专业领域和文档类型及主题从所述模板库中提取相应模板,并按照文档框架结构与目标内容的对应关系,关联结构化数据标签、可扩展的半结构化数据标签。进一步地,所述专用模板库是以结构化数据框架为主体,以可扩展的半结构化数据框架为辅助的结构化文档和结构化标签集。进一步地,所述通用模板库是以可扩展的半结构化数据框架为主体的结构化文档框架和结构化标签集。进一步地,所述数据应用系统为办公自动化系统和/或业务系统。与现有技术相比,本专利技术具有以下效果:(1)通过本专利技术方法加工处理后的文档,能够使文档在不改变文档原貌的前提下,可提取与文档相关及相一致的结构化数据,使文档在便于人工使用的同时满足知识发现和知识提取。与现有的XML文档相比具有即不改变人工阅读和使用习惯,且具有结构化特性的特点。(2)嵌入结构化数据的文档,在不进行任何处理的前提下,可由现有文档格式类型相关联的软件正常读取和显示。(3)文档的结构化数据体不易被人为篡改,使文档数据具备真实性和不可抵赖性。综上所述,通过本专利技术数据嵌入系统及嵌入方法的处理,使文档即满足人工阅读、理解、使用和备案需求又可通过结构化的提取方式提取文档中嵌入的结构化和半结构化数据信息,实现嵌入结构化数据的文档的自动化采集与处理,并可有效控制文档的规范化程度和数据精度要求。附图说明图1本文档来自技高网...

【技术保护点】
1.一种文档结构化数据嵌入方法,其特征在于,包括以下步骤:/n(1)构建文档结构化框架模板,根据专业文档规范化标准,按照专业领域、文档类型及主题将文档划分为不同主题章节、标题段落和描述区域的框架结构,并按照文档框架结构与目标内容的对应关系,关联结构化数据标签、可扩展的半结构化数据标签,形成可反复引用的文档结构化框架模板;/n(2)通过文档结构化框架模板编辑和管理文档,根据专业领域、文档类型及主题选取相对应的模板,预加载到文档编辑器中,通过与用户交互的方式完成文档的编辑与管理,并通过这种交互方式按照模板确定的格式,动态完成与文档框架结构相对应的结构化数据标签、可扩展的半结构化数据标签的编辑和管理;/n(3)结构化数据采集,将通过文档编辑器编辑后的文档数据按照文档结构化框架模板和相对应的结构化数据标签及可扩展的半结构化数据标签的关联关系,提取并转化为xml结构体数据和文档属性字段;/n(4)文档结构化数据嵌入,从所述通过文档结构化框架模板编辑和管理文档过程得到由用户根据模板框架编辑完成的文档并将其作为文档主体,并将所述结构化数据采集阶段中获得的xml结构体数据和文档属性字段按照一种嵌入体格式进行封装,根据目标文档文件存储格式特性,预先通过嵌入点可靠性验证,确定结构体数据在目标文档中的嵌入位置,并将其嵌入到目标格式文件中得到嵌入结构化数据的文档;/n(5)从嵌入结构化数据的文档中提取结构化数据,通过读取所述嵌入结构化数据的文档,按照嵌入体格式特征提取文档中的结构体数据并获取文档相关属性信息,根据模板属性值匹配到相应模板,以此模板提供的框架结构为特征,提取结构体数据中的结构化数据和可扩展的半结构化数据。/n...

【技术特征摘要】
1.一种文档结构化数据嵌入方法,其特征在于,包括以下步骤:
(1)构建文档结构化框架模板,根据专业文档规范化标准,按照专业领域、文档类型及主题将文档划分为不同主题章节、标题段落和描述区域的框架结构,并按照文档框架结构与目标内容的对应关系,关联结构化数据标签、可扩展的半结构化数据标签,形成可反复引用的文档结构化框架模板;
(2)通过文档结构化框架模板编辑和管理文档,根据专业领域、文档类型及主题选取相对应的模板,预加载到文档编辑器中,通过与用户交互的方式完成文档的编辑与管理,并通过这种交互方式按照模板确定的格式,动态完成与文档框架结构相对应的结构化数据标签、可扩展的半结构化数据标签的编辑和管理;
(3)结构化数据采集,将通过文档编辑器编辑后的文档数据按照文档结构化框架模板和相对应的结构化数据标签及可扩展的半结构化数据标签的关联关系,提取并转化为xml结构体数据和文档属性字段;
(4)文档结构化数据嵌入,从所述通过文档结构化框架模板编辑和管理文档过程得到由用户根据模板框架编辑完成的文档并将其作为文档主体,并将所述结构化数据采集阶段中获得的xml结构体数据和文档属性字段按照一种嵌入体格式进行封装,根据目标文档文件存储格式特性,预先通过嵌入点可靠性验证,确定结构体数据在目标文档中的嵌入位置,并将其嵌入到目标格式文件中得到嵌入结构化数据的文档;
(5)从嵌入结构化数据的文档中提取结构化数据,通过读取所述嵌入结构化数据的文档,按照嵌入体格式特征提取文档中的结构体数据并获取文档相关属性信息,根据模板属性值匹配到相应模板,以此模板提供的框架结构为特征,提取结构体数据中的结构化数据和可扩展的半结构化数据。


2.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述标题段落包括但不限于内容范围、表格样式、文字字体、文字缩进、行间距。


3.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述结构化数据标签用于标记文档中与主题内容、标题段落和描述区域相关且已明确的描述和关键指标参数。


4.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述可扩展的半结构化数据标签用于标记文档中与主题内容、标题段落和描述区域相关但无法明确的描述和关键指标参数。


5.根据权利要求1所述的一种文档结构化数据嵌入方法,其特征在于:所述文档属性字段包括但不限于文档标题、文档主题分类、模板信息、作者、文档版本号、文档摘要、关键字、数字签名人信息及数字签名。


6.一种文档结构化数据嵌...

【专利技术属性】
技术研发人员:杨建庆谢现举孙双魁张春花罗江怡吴淼彭梦姚罗潮霞刘杰白有为刘康王海燕孙永花李晶晶周彪魏清李祥花田蕾
申请(专利权)人:西宁宁光工程咨询有限公司中国电建集团青海省电力设计院有限公司
类型:发明
国别省市:青海;63

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1