数字出版物的自动标注方法技术

技术编号：12847523 阅读：56 留言：0更新日期：2016-02-11 13:48

本发明专利技术提供一种数字出版物的自动标注方法。包括如下步骤：解析文档：采用解析工具将pdf文档的页面进行解析，并将解析后数据合理的存储方便分词等后续处理调用；提取关键字：对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统；同义词归并：以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词；权值计算：利用计算机系统，为最终的关键字进行权值计算，并保存；带标注的电子文档：将得到的关键字及相关信息与页面数据关联形成标注信息，得到带标注的电子文档。本发明专利技术方法能够对数字出版物提供标注信息的查看，实现数字出版物的带标注预览和阅读方式，能够方便读者快速有效的查看文档中的主题信息。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数字出版物
，尤其涉及到一种通过对数字出版文档内容进行分词处理，提取内部关键字获取标注信息的。
技术介绍
网络的普及和发展使得数字出版物逐渐流行，但目前的数字出版物只提供单纯的版面阅读，甚至只是对纸质出版物的一种简单备份，还没有一个对电子出版物的内容进行提炼标注的形式来快速获取或者展现内容要素。一方面，本模块提出的数字出版物的标注提供一种新的阅读和获取信息要素的方式；另一方面，这种标注为网络电子文档添加了标签，能为电子文档之间建立概念网络、本体库的建立提供有效的数据支撑。
技术实现思路
本专利技术所要解决的技术问题是正对上述存在的技术不足，提供一种对数字出版物提供标注信息的查看，实现数字出版物的带标注预览和阅读方式，能够方便读者快速有效的查看文档中的主题信息的。本专利技术解决其技术问题所采用的技术方案是: ，其特征在于，包括如下步骤: 解析文档:在计算机系统中，采用解析工具将pdf文档的页面进行解析，解析之后可以获取到pdf文档的所有页面数据，通过目录、段落特征识别出目录页以及页面段落，并将这些数据合理的存储方便分词等后续处理调用。提取关键字:对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统。同义词归并:以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词。权值计算:利用计算机系统，为最终的关键字进行权值计算，并保存。带标注的电子文档:将得到的关键字及相关信息与页面数据关联形成标注信息，得到带标注的电子文档。在上述方案中，所述的解析文档步骤中，对解析数据的再识具体为:...

【技术保护点】
数字出版物的自动标注方法，其特征在于，包括如下步骤：解析文档：在计算机系统中，采用解析工具将pdf文档的页面进行解析，解析之后可以获取到pdf文档的所有页面数据，通过目录、段落特征识别出目录页以及页面段落，并将这些数据合理的存储方便分词等后续处理调用；提取关键字：对照现有的关键字表，以段落为单位对文档的每一页的每一段进行关键字提取，并存入计算机系统；同义词归并：以段落为单位，在计算机系统内，对段落关键字进行同义词归并得到最终关键词；权值计算：利用计算机系统，为最终的关键字进行权值计算，并保存；带标注的电子文档：将得到的关键字及相关信息与页面数据关联形成标注信息，得到带标注的电子文档。

【技术特征摘要】

【专利技术属性】
技术研发人员：杨朝阳，刘永坚，白立华，李文忠，杨慧，朱驰风，
申请(专利权)人：武汉理工大学，
类型：发明
国别省市：湖北;42

全部详细技术资料下载我是这个专利的主人