一种基于模板的出版物半自动生成方法及系统技术方案

技术编号:10579798 阅读:162 留言:0更新日期:2014-10-29 12:09
本发明专利技术公开了一种基于模板的出版物半自动生成方法及系统,属于信息检索技术领域。本发明专利技术根据用户的需求选择相应的数字内容类型和版面布局,将用户的选择和确定的内容使用标记语言生成模板描述文件;根据模板描述文件在互联网进行信息抓取,同时在本地已经建立好的本地知识库中检索相关信息,对得到数据进行合并和相似度计算,得到相关内容列表,然后存储到本地数据库中;根据相关内容列表和关键词的相关性计算生成内容草稿;将内容草稿和相关内容列表自动发送到编辑软件,用户既可以对内容草稿的内容和格式进行修改,也可以使用相关内容列表中的内容替换内容草稿中的内容,最后生成最终稿件。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种基于模板的出版物半自动生成方法及系统,属于信息检索
。本专利技术根据用户的需求选择相应的数字内容类型和版面布局,将用户的选择和确定的内容使用标记语言生成模板描述文件;根据模板描述文件在互联网进行信息抓取,同时在本地已经建立好的本地知识库中检索相关信息,对得到数据进行合并和相似度计算,得到相关内容列表,然后存储到本地数据库中;根据相关内容列表和关键词的相关性计算生成内容草稿;将内容草稿和相关内容列表自动发送到编辑软件,用户既可以对内容草稿的内容和格式进行修改,也可以使用相关内容列表中的内容替换内容草稿中的内容,最后生成最终稿件。【专利说明】一种基于模板的出版物半自动生成方法及系统
本专利技术属于信息检索
,更具体地,涉及一种基于模板的出版物半自动生 成方法及系统,本专利技术利用标记语言、多媒体检索技术和信息融合技术实现出版物的半自 动生成。
技术介绍
现有的数字出版物的生成过程是:作者或编者根据自己出版物的主题查阅资料, 进行文字录入,图像扫描和图形绘制,然后采用近似手工方式对自己感兴趣的题材进行编 辑、创作,使其彼此之间按照有机的方式交互联系,具备良好的可读性。然而最终成稿的数 字内容,除了点睛之笔外,有近60%?70%的内容来自于各种参考文献。传统的手工收集 素材和传统的数字出版物的手工编辑方式需要大量的人力和物力,同时数字内容的撰写周 期较长,获得的素材所包含的广度都有一定的局限。
技术实现思路
针对现有技术的以上缺陷或改进需求,本专利技术提供一种基于模板的半自动化出版 物方法及系统,其目的在于缩短出版物的出版周期,由此解决出版物内容自动生成的技术 问题。 为实现上述目的,按照本专利技术的一个方面,提供一种基于模板的出版物半自动生 成方法,包括以下步骤: 步骤1接收用户选择和确定的出版物的数字内容类型; 步骤2接收所述用户选择和确定所述出版物的版面整体布局; 步骤3对所述数字内容类型和所述版面整体布局使用标记语言生成模板描述文 件; 步骤4根据所述数字内容中每个内容单元的关键词从互联网上抓取相关信息和 从本地知识库中检索相关信息得到信息列表,然后对所述信息列表进行排序得到相关内容 列表,其中,所述内容单元为一个自然段; 步骤5对所述相关内容列表进行相关性排序,生成内容草稿; 步骤6根据所述相关内容列表和所述内容草稿进行内容编辑和修改,确定所述出 版物的最终的格式和内容。 按照本专利技术的另一方面,提供一种基于模板的出版物半自动生成系统,包括: 模板定制模块,根据用户选择的数字内容类型和版面整体布局使用标记语言生成 模板描述文件; 草稿生成模块,根据所述模板描述文件,在互联网和本地知识库中检索相关信息 得到信息列表,然后对所述信息列表进行相关性排序生成相关内容列表,对所述相关内容 列表进行相关性排序生成内容草稿;以及 手工编辑模块,用于对所述相关内容列表和所述内容草稿进行编辑和修改,确定 所述出版物最终的格式和内容。 总体而言,通过本专利技术所构思的以上技术方案与现有技术相比,具有以下有益效 果: (1)数字内容类型和版面整体布局可根据需求定制,满足了各种各样出版物的需 求; (2)从互联网上抓取信息和从本地知识库中检索信息,即保证了题材的丰富性,又 保证了出版物的内容的广度,深度以及可信度;实现了出版物的数字化; (3)对从互联网抓取下来的信息和从本地知识库中检索的信息自动进行整理,生 成内容草稿,将内容草稿和相关内容列表提供给用户进行编辑,大大降低了人力成本,缩短 了出版物的生成周期; (4)用户对内容草稿和相关内容列表进行选择和编辑,保证了最后生成稿件的正 确性,相关性和可取性。 【专利附图】【附图说明】 图1为本专利技术基于模板的出版物半自动生成系统的结构示意图; 图2为本专利技术基于模板的出版物半自动生成方法的流程图; 图3为本专利技术数字内容类型选择的流程图; 图4为本专利技术版面整体布局设计的流程图; 图5为本专利技术使用标记语言进行语义描述的流程图; 图6为本专利技术相关数字内容抓取的流程图; 图7为本专利技术草稿自动生成的流程图; 图8为本
技术实现思路
编辑的流程图; 图9为本
技术实现思路
编辑操作界面演示图。 【具体实施方式】 为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对 本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并 不用于限定本专利技术。此外,下面所描述的本专利技术各个实施方式中所涉及到的技术特征只要 彼此之间未构成冲突就可以相互组合。 图1所示为本专利技术基于模板的出版物半自动生成系统的结构示意图,包括模板定 制模块1〇〇、草稿生成模块200和手工编辑模块300。 模板定制模块100根据用户选择的数字内容类型和版面整体布局使用标记语言 生成模板描述文件。模板定制模块100包括:数字内容类型选择模块101、版面整体布局设 计模块102和语义描述模块103。数字内容类型选择模块101用于选择和确定数字内容,用 户通过选择出版物的类型、章节、标题、段落和填写每个段落的关键词等信息来确定出版物 的数字内容类型,其中每个自然段为一个内容单元。版面整体布局设计模块102用于选择 和确定版面整体布局,具有相同格式和布局的文字块组成一个布局单元,用户通过选择出 版物的封面和每个布局单元的字体、字号、线条和颜色等信息来确定出版物的版面整体布 局。语义描述模块103根据用户选择的数字内容类型和版面整体布局设计,对数字内容类 型和生成的版面整体布局信息使用标记语言生成模板描述文件。在本专利技术实施例中,语义 描述模块103依次读入每一个内容单元和布局单元,然后依次使用标记语言来表示。标记 语言是一种将文本以及文本相关的其他信息结合起来,展现出关于文档结构和数据处理细 节的电脑编码。与文本相关的其他信息(包括文本的结构和表示信息等)与原来的文本结 合在一起,但是使用标记进行标识。在本专利技术实施例中,使用的标记语言对各定义的标签解 释如下:publicationname:出版物的书名或期刊名属性集;name:名字;top:到顶部的距 离;bottom:到底部的距离;left:到左边缘的距离;right:到右边缘的距离;font:字体; fontsize:字体大小;color:颜色;version:版本;author:作者;booksize:出版物的长度 及宽度;press:出版社;printing:印刷厂;bind:装订厂;numberofprint:印刷次;price: 价格;pagenumber :总页数;linestyle :线条格式;page :出版物的页数集合;pageid :页 数;plate :本页的版面格式集合;title :版面的标题格式的集合;contents :版面标题的 内容;body :版面的内容;keyword :版面的关键字等。 标记语言的一种具体实现文档格式如下所示: -.................................<?-version^本文档来自技高网
...

【技术保护点】
一种基于模板的出版物半自动生成方法,其特征在于,包括:步骤1接收用户选择和确定的出版物的数字内容类型;步骤2接收所述用户选择和确定所述出版物的版面整体布局;步骤3对所述数字内容类型和所述版面整体布局使用标记语言生成模板描述文件;步骤4根据所述数字内容中每个内容单元的关键词从互联网上抓取相关信息和从本地知识库中检索相关信息得到信息列表,然后对所述信息列表进行排序得到相关内容列表,其中,所述内容单元为一个自然段;步骤5对所述相关内容列表进行相关性排序,生成内容草稿;步骤6根据所述相关内容列表和所述内容草稿进行内容编辑和修改,确定所述出版物的最终的格式和内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:邹复好周可曹丙章郑创伟郑胜谢志成曾宇鹏
申请(专利权)人:华中科技大学深圳报业集团
类型:发明
国别省市:湖北;42

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1