数字出版物导览目录处理方法和装置制造方法及图纸

技术编号:12409705 阅读:55 留言:0更新日期:2015-11-29 18:02
本发明专利技术提供一种数字出版物导览目录处理方法和装置,通过在指定页码范围内的文字内容中确定候选主题集合;分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。可以根据指定页码范围内的文字内容自动生成数字出版物导览目录,提高了数字出版物导览目录处理效率,可以解决现有的数字出版物导览目录处理效率低的问题。

【技术实现步骤摘要】

本专利技术涉及数字出版技术,尤其涉及一种数字出版物导览目录处理方法和装置
技术介绍
随着平板电脑及智能手机的普及,数字出版成为一种重要的出版形式。数字出版 以电子设备为阅读载体、通过互联网进行传播。具有节约纸张,传播方便迅速,具有丰富的 多媒体效果等特性,必将成为未来主要的出版形式。这里的数字出版物不仅仅限于电子书, 可以涵盖数字报、数字杂志、电子书、数字教材、教学课件等。 数字出版物由于不存在印刷成本,因此版面以彩色为主、图片居多,版面效果丰 富,版式没有明显的规律性,导览目录具有页面跳转能力。因此传统的印刷出版提取目录的 方法不再适用数字出版物导览目录的提取。由于数字出版目前处于起步阶段,成熟的数字 出版物制作工具不多。现有的数字出版物制作工具导览目录以手工制作为主,存在效率低 的问题。
技术实现思路
本专利技术提供一种数字出版物导览目录处理方法和装置,用以解决现有的数字出版 物导览目录处理效率低的问题。 本专利技术提供一种数字出版物导览目录处理方法,包括: 在指定页码范围内的文字内容中确定候选主题集合; 分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为 所述指定页码范围内的文字内容的主题; 根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大 权重值对应的图片确定为与所述确定的主题匹配的图片; 将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导 览目录。 本专利技术提供一种数字出版物导览目录处理装置,包括: 第一确定模块,用于在指定页码范围内的文字内容中确定候选主题集合; 第一计算模块,用于分别计算所述第一确定模块确定的候选主题集合中每个主题 的权重; 第二确定模块,用于将所述第一计算模块计算的最大权重值对应的主题确定为所 述指定页码范围内的文字内容的主题; 第二计算模块,用于根据所述第二确定模块确定的主题,分别计算所述指定页码 范围内的每一图片的权重; 第三确定模块,用于将所述第二计算模块计算的最大权重值对应的图片确定为与 所述确定的主题匹配的图片; 生成模块,用于将所述指定页码范围和所述第二确定模块确定的主题以及第三确 定模块确定的图片生成所述数字出版物导览目录。 本专利技术通过在指定页码范围内的文字内容中确定候选主题集合;分别计算所述候 选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文 字内容的主题;根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将 最大权重值对应的图片确定为与所述确定的主题匹配的图片;将所述指定页码范围和所述 确定的主题以及对应的图片生成所述数字出版物导览目录。可以根据指定页码范围内的文 字内容自动生成数字出版物导览目录,提高了数字出版物导览目录处理效率,可以解决现 有的数字出版物导览目录处理效率低的问题。【附图说明】 图1为本专利技术数字出版物导览目录处理方法实施例的流程图; 图2为本专利技术数字出版物导览目录处理装置实施例的流程图; 图3为本专利技术实施例所述的数字出版物导览目录在平板电脑上的呈现效果图; 图4为本专利技术实施例所述的数字出版物导览目录处理方法在排版软件中制作栏 目的界面效果。【具体实施方式】 本专利技术的目的是提供一种智能提取数字出版物导览目录的方法,该方法通过自动 提取主题及配图,自动维护导览目录与正文内容的超链接关系,能够大大提升数字出版物 导览目录的制作效率,降低制作难度。 图1为本专利技术数字出版物导览目录处理方法实施例的流程图,如图1所示,本实施 例的方法可以包括: 101、在指定页码范围内的文字内容中确定候选主题集合; 举例来说,在所述指定页码范围内的文字内容中,将重复出现次数超过次数阈值 的文字或词语或句子作为候选主题,组成候选主题集合,其中,次数阈值可以根据不同文字 内容具体设置。 102、分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确 定为所述指定页码范围内的文字内容的主题; 具体实现时,分别计算所述候选主题集合中每个主题的权重,包括: 根据公式I分别计算所述候选主题集合 中每个主题的权重,其中,N为主题的字数;或者 根据公式R2 = L2,分别计算所述候选主题集合中每个主题的权重,其中,L为主题 的字号高度;或者 根据公式 分别计算所述候选主题集合 中每个主题的权重,N为主题在的字数,L为主题的字号高度。 需要说明的是,上述公式中的数字10是优选的自定义数字,也可以是其他数字, 本专利技术对此不作限定。 需要说明的是,当计算所述候选主题集合中每个主题的权重之后,可以将每个主 题按照各自权重值的大小进行排序,将最大权重值对应的主题确定为所述指定页码范围内 的文字内容的主题。 103、根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将 最大权重值对应的图片确定为与所述确定的主题匹配的图片; 可选地,根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重, 包括: 根据公式分别计算所述指定页码范围内的每一图 片的权重,其中,为H表示图片高度,W表示图片宽度,S表示图片的边界与所述确定的主题 之间的最近距离,单位为毫米。 需要说明的是,当计算所述指定页码范围内的每一图片的权重之后,可以将每一 图片按照各自权重值的大小进行排序,并将最大权重值对应的图片确定为与所述确定的主 题匹配的图片。 104、将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版 物导览目录。 其中,所述数字出版物导览目录例如包含主题、配图、页码范围,还还可以所属的 栏目等。 举例来说,本实施例的数字出版物导览目录的逻辑格式例如可以描述为:〈导览 目录〉 〈目录栏目="新闻"标题="新闻1"配图="图片I. jpg"页码="1〇"> 〈目录栏目="娱乐"标题="电影信息"配图="图片2. jpg"页码="12"> ...... 〈/导览目录〉 可选地,本实施例还可以显示所述生成数字出版物导览目录,图3为本专利技术实施 例所述的数字出版物导览目录在平板电脑上的呈现效果图,如图3所示,在阅读器端,完成 数字出版物导览目录的呈现及操作。在平板电脑上,可以方便的触控方式完成导览目录的 弹出、滚屏、选择、消隐,为用户提供人性化的操作体验。 其中,本实施例的数字出版物导览目录例如可以按照预设的逻辑结构存储在数字 出版物的数据包中。当用户点击阅读器上方工具条中的按钮后,将呈现导览目录。呈现的 具体效果可以由阅读器决定。导览目录的顺序一般按照栏目或者页码的顺序进行呈现,当 目录过多的时候可以用手滑动目录。目录中一般应该包含主题、配图、栏目名称。当读者点 击目录的时候,可以跳转到对应的正文页。 需要说明的是,在第一次制作数字出版物导览目录的时候,可以提示用户是否启 动智能数字出版物导览目录生成功能。应该提供整书智能生成导览目录的功能及一定范围 的页面智能生成导览目录的功能。 对候选主题的搜集一定要全面,包括标题块中的文字,正文块中的第一段文字,成 组块中的子文字块中的文字,表格表头或者第一行中的文字。有些文字块转换为了矢量图 形或者图片,在转换后应该记录其原始的文字属性做为其附加属性。在提取导览目录的时 候可以利用这些附加属性。如果一个版本文档来自技高网...

【技术保护点】
一种数字出版物导览目录处理方法,其特征在于,包括:在指定页码范围内的文字内容中确定候选主题集合;分别计算所述候选主题集合中每个主题的权重,将最大权重值对应的主题确定为所述指定页码范围内的文字内容的主题;根据所述确定的主题,分别计算所述指定页码范围内的每一图片的权重,将最大权重值对应的图片确定为与所述确定的主题匹配的图片;将所述指定页码范围和所述确定的主题以及对应的图片生成所述数字出版物导览目录。

【技术特征摘要】

【专利技术属性】
技术研发人员:杨雷鸣王婷
申请(专利权)人:北大方正集团有限公司北京北大方正电子有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1