本发明专利技术涉及一种基于动态模板的规范化文档生成方法及装置,包括:接收用户在图数据库中录入的动态模板树,并基于图数据库中的动态模板树,获取与动态模板树对应的模板结点信息和大纲信息;模板结点信息包括:与动态模板树中的第一子结点、第三子结点、第四子结点所对应的文本;大纲信息包括:与纲目结构树中根结点对应的文档总标题和与纲目结构树中根结点的子结点对应的标题之间的纲目关系;基于模板结点信息、大纲信息、预先设定的模板记录信息以及预先设定的数据路径信息,获取文档文本;其中,预先设定的数据路径信息为:与所述任一第二子结点所对应的文本;模板记录信息包括:纲目结构树中的每一子结点和任一段落结点之间的对应关系。
【技术实现步骤摘要】
一种基于动态模板获取规范化文档的方法及装置
本专利技术涉及一种文档编辑
,尤其涉及一种基于动态模板获取规范化文档的方法及装置。
技术介绍
随着工业生产和信息管理水平不断提高,数据处理的工作量越来越大,需要绘制大量的数据处理文档。从规范化文档的表现形式角度看,一般文档由文字、图形、表格等形式组成;从规范化文档的内容角度看,文档包含封面、目录、正文和封底,正文由多个段落构成。不同生产单位、不同领域、不同对象、不同时间段的文档模板不尽相同,面对繁杂的模板及其各种可能的要求,人工处理耗时费力、无法确保不存在遗漏或错误。现有的技术中提前设计好报告模板,将数据处理方法封装为数据占位符、书签或特定的关键字插入到模板中程序需要填写的特定位置。生成文档时,根据用户操作调用相应的数据处理方法进行信息录入和检索,替换报告模板中的数据占位符、书签、或特定的关键字,从而生成最终文档。但是现有的技术中需预先定制出文档模板,其纲目结构、段落内容和格式细节大多固定,灵活性不够。利用模板生成文档时,不能根据不同数据进行模板结构与内容调整,也不涉及模板变更后的数据交互。只适用于基于内容、结构和格式固定模板的文档生成,并不适用于基于模板树和动态数据的文档生成。
技术实现思路
(一)要解决的技术问题为了解决现有技术中纲目结构、段落内容和格式细节固定,灵活性不够,利用模板生成文档时,不能根据不同数据进行模板结构与内容调整,也不涉及模板变更后的数据交互的问题,本专利技术提供一种基于动态模板获取规范化文档的方法及装置。(二)技术方案为了达到上述目的,本专利技术提供一种基于动态模板获取规范化文档的方法,包括:A1、接收用户在图数据库中录入的动态模板树,并基于所述图数据库中的动态模板树,获取与所述动态模板树对应的模板结点信息和大纲信息;所述动态模板树包括:以预先设定的文档中的总标题为根结点、以所述预先设定的文档中任一段落的标题为子结点的纲目结构树和段落结构树;其中,所述段落结构树中具有多层结点;所述多层结点中的第一层的结点包括以所述预先设定的文档中任一段落为结点的根结点;其中所述多层结点中的第二层结点为所述根结点的子结点,包括以所述段落中第一预设规则的文本为结点的第一子结点和/或以段落中第二预设规则的文本为结点的第二子结点和/或以段落中第三预设规则的文本为结点的第三子结点和/或以所述段落中第四预设规则的文本为结点的第四子结点;其中所述多层结点中除第一层、第二层、之外的任一层结点为所述任一层的上一层结点中的第三子结点的子结点或第四子结点的子结点;其中,所述第三子结点的子结点或第四子结点的子结点包括:第一子结点和/或第二子结点和/或第三子结点和/或第四子结点;所述纲目结构树中的任一结点均包括:以第一预设规则文本为结点的第一子结点和/或第二预设规则文本为结点的第二子结点;所述模板结点信息包括:与所述动态模板树中的第一子结点、第三子结点、第四子结点所对应的文本;所述大纲信息包括:与所述纲目结构树中根结点对应的文档总标题和与所述纲目结构树中根结点的子结点对应的标题之间的纲目关系;A2、基于所述模板结点信息、大纲信息、预先设定的模板记录信息以及预先设定的数据路径信息,获取文档文本;其中,所述预先设定的数据路径信息为:与所述任一第二子结点所对应的文本数据;模板记录信息包括:纲目结构树中的每一子结点和任一段落结点之间的对应关系。优选的,所述步骤A2包括:A2-1、根据所述模板结点信息、模板记录信息、预先设定数据路径信息,获取与所述任一段落结构树对应的段落文本;A2-2、根据所述大纲信息、预先设定数据路径信息,获取与所述纲目结构树中任一结点所对应的标题文本;A2-3、根据与所述任一段落结构树对应的段落文本、与所述纲目结构树中任一结点所对应的标题文本、模板记录信息,确定与所述任一段落文本对应的标题文本;A2-4、基于所述段落文本和与所述段落文本对应的标题文本,获取文档文本。优选的,所述步骤A2-1包括:A2-1-1、基于所述模板结点信息,获取所述模板结点信息中任一段落树中的第一结点、第三结点、第四结点所对应的文本和所述段落树中的第二结点;A2-1-2、基于所述模板结点信息中任一段落树中的第一结点、第三结点、第四结点所对应的文本,确定与所述任一段落树对应的第一文本;A2-1-3、基于所述任一段落树对应的第一文本、所述段落树中的第二结点以及预先设定的数据路径信息,确定与所述任一段落结点对应的段落文本。优选的,所述步骤A2-2包括:A2-2-1、基于所述大纲信息,获取所述大纲信息中大纲结构树中的任一结点的第一子结点所对应的文本和所述大纲结构树中的第二子结点;A2-2-2、基于所述大纲信息中大纲结构树中的任一结点的第一子结点所对应的文本、所述大纲结构树中的任一结点的第二子结点以及预先设定的数据路径信息,确定与所述大纲结构树中任一结点对应的标题文本。优选的,所述步骤A2之后还包括:A3、基于预先设定的样式信息,确定所述文档文本中标题文本的字体、字号、字色和所述文档文本中段落文本的字体、字号、字色;其中,所述预先设定的样式信息包括:字体类型、字号类型、字色类型。优选的,所述基于图数据库中的动态模板树,获取与所述动态模板树对应的大纲信息,包括:对所述图数据库中的大纲结构树按照预先设定的第一遍历方法进行遍历,获取大纲信息。优选的,所述基于图数据库中的动态模板树,获取与所述动态模板树对应的模板结点信息,包括:对所述图数据库中的任一段落结构树按照预先设定的第一遍历方法进行遍历,获取模板结点信息。优选的,所述预先设定的第一遍历方法,包括:从所述大纲结构树或段落结构树的根结点开始遍历,逐层进行遍历处理;针对每一层的结点按照预先设定的顺序进行遍历,若遍历的当前的结点没有子结点时,则遍历完当前的结点后进行下一顺序结点的遍历;若遍历的当前的结点有子结点时,则遍历完当前的结点后,遍历当前结点的所有子结点。一种基于动态模板的规范化文档生成的装置,所述基于动态模板的规范化文档生成的装置存储计算机指令;所述计算机指令使所述获取词项文档段落关联权重的装置执行如上述任一项所述的基于动态模板的规范化文档生成方法。一种非暂态计算机可读存储介质,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令使所述计算机执行如上述任一项所述的基于动态模板的规范化文档生成方法。(三)有益效果本专利技术的有益效果是:由于本专利技术中的预先设定的动态模板树中各个结点代表着规范文档中相应的文本,同时动态模板树中各个结点还有多个结点属性,因此本专利技术能够根据预先设定的动态模板树中代表着规范文档的纲目、标题、段落等结点进行自动抓取和整合结点的数据,进而生成规范文档,从而提高了工作效率和数据的准确性。附图说明图1为本专利技术的一种基于动态模板获取规范化文本文档来自技高网...
【技术保护点】
1.一种基于动态模板的规范化文档生成方法,其特征在于,包括步骤:/nA1、接收用户在图数据库中录入的动态模板树,并基于所述图数据库中的动态模板树,获取与所述动态模板树对应的模板结点信息和大纲信息;/n所述动态模板树包括:以预先设定的文档中的总标题为根结点、以所述预先设定的文档中任一段落的标题为子结点的纲目结构树和段落结构树;其中,所述段落结构树中具有多层结点;所述多层结点中的第一层的结点包括以所述预先设定的文档中任一段落为结点的根结点;其中所述多层结点中的第二层结点为所述根结点的子结点,包括以所述段落中第一预设规则的文本为结点的第一子结点和/或以段落中第二预设规则的文本为结点的第二子结点和/或以段落中第三预设规则的文本为结点的第三子结点和/或以所述段落中第四预设规则的文本为结点的第四子结点;其中所述多层结点中除第一层、第二层、之外的任一层结点为所述任一层的上一层结点中的第三子结点的子结点或第四子结点的子结点;/n其中,所述第三子结点的子结点或第四子结点的子结点包括:第一子结点和/或第二子结点和/或第三子结点和/或第四子结点;/n所述纲目结构树中的任一结点均包括:以第一预设规则文本为结点的第一子结点和/或第二预设规则文本为结点的第二子结点;/n所述模板结点信息包括:与所述动态模板树中的第一子结点、第三子结点、第四子结点所对应的文本;/n所述大纲信息包括:与所述纲目结构树中根结点对应的文档总标题和与所述纲目结构树中根结点的子结点对应的标题之间的纲目关系;/nA2、基于所述模板结点信息、大纲信息、预先设定的模板记录信息以及预先设定的数据路径信息,获取文档文本;/n其中,所述预先设定的数据路径信息为:与所述任一第二子结点所对应的文本数据;/n模板记录信息包括:纲目结构树中的每一子结点和任一段落结点之间的对应关系。/n...
【技术特征摘要】
1.一种基于动态模板的规范化文档生成方法,其特征在于,包括步骤:
A1、接收用户在图数据库中录入的动态模板树,并基于所述图数据库中的动态模板树,获取与所述动态模板树对应的模板结点信息和大纲信息;
所述动态模板树包括:以预先设定的文档中的总标题为根结点、以所述预先设定的文档中任一段落的标题为子结点的纲目结构树和段落结构树;其中,所述段落结构树中具有多层结点;所述多层结点中的第一层的结点包括以所述预先设定的文档中任一段落为结点的根结点;其中所述多层结点中的第二层结点为所述根结点的子结点,包括以所述段落中第一预设规则的文本为结点的第一子结点和/或以段落中第二预设规则的文本为结点的第二子结点和/或以段落中第三预设规则的文本为结点的第三子结点和/或以所述段落中第四预设规则的文本为结点的第四子结点;其中所述多层结点中除第一层、第二层、之外的任一层结点为所述任一层的上一层结点中的第三子结点的子结点或第四子结点的子结点;
其中,所述第三子结点的子结点或第四子结点的子结点包括:第一子结点和/或第二子结点和/或第三子结点和/或第四子结点;
所述纲目结构树中的任一结点均包括:以第一预设规则文本为结点的第一子结点和/或第二预设规则文本为结点的第二子结点;
所述模板结点信息包括:与所述动态模板树中的第一子结点、第三子结点、第四子结点所对应的文本;
所述大纲信息包括:与所述纲目结构树中根结点对应的文档总标题和与所述纲目结构树中根结点的子结点对应的标题之间的纲目关系;
A2、基于所述模板结点信息、大纲信息、预先设定的模板记录信息以及预先设定的数据路径信息,获取文档文本;
其中,所述预先设定的数据路径信息为:与所述任一第二子结点所对应的文本数据;
模板记录信息包括:纲目结构树中的每一子结点和任一段落结点之间的对应关系。
2.根据权利要求1所述的方法,其特征在于,所述步骤A2包括:
A2-1、根据所述模板结点信息、模板记录信息、预先设定数据路径信息,获取与所述任一段落结构树对应的段落文本;
A2-2、根据所述大纲信息、预先设定数据路径信息,获取与所述纲目结构树中任一结点所对应的标题文本;
A2-3、根据与所述任一段落结构树对应的段落文本、与所述纲目结构树中任一结点所对应的标题文本、模板记录信息,确定与所述任一段落文本对应的标题文本;
A2-4、基于所述段落文本和与所述段落文本对应的标题文本,获取文档文本。
3.根据权利要求2所述的方法,其特征在于,所述步骤A2-1包括:
A2-1-1、基于所述模板结点信息,获取所述模板结点信息中任一段落树中的第一结点、第三结点、第四结点所对应的文本...
【专利技术属性】
技术研发人员:雷玉娇,邓吉秋,
申请(专利权)人:中南大学,
类型:发明
国别省市:湖南;43
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。