一种基于图书目录的专题自动生成方法技术

技术编号：13601718 阅读：147 留言：0更新日期：2016-08-27 17:40

本发明专利技术公开了一种基于图书目录的专题自动生成方法。对每一本书，把目录中每个章节当作一个词语，提取出词语的特征，训练出一个分类器识别出书目录中的实体，对于书目录中每一对属于实体的上下级章节词抽取出符合上下位关系的章节对。根据上下位关系构建每个词的概念层次结构，对所有图书中相同的或相似的概念层次进行融合。对概念层次中的每一个概念词语，检索其在网页中和图书中的内容作为该词语的描述内容。最后，把概念层次及概念词内容组织成专题形式。本发明专利技术利用图书目录的结构化信息和机器学习相关算法实现了知识的抽取和重组，在编写专题时可以借鉴，可以大大减少相关工作的人力成本，具有较高的实用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理和机器学习领域，尤其涉及基于图书目录的专题自动生成方法。
技术介绍
随着计算机科学技术的快速发展，网络数据也随之呈爆炸式增长，这些网络数据具有来源广泛、无结构、无层次、成分复杂、多噪音等特点。如何从中抽取知识并按照一定方式组织应用成了自然语言处理、机器学习和信息检索等领域的一大热门方向。知识库为该问题提供了一种可行的解决方案，然而，大规模知识库的构建仍然是一个极具挑战的任务。WordNet,EurowordNet,Cyc都是由领域专家人工编撰的知识库。尽管它们具有高质量，但是在规模、知识覆盖度、更新周期等方面明显不足，另外通过人工编写，需要耗费大量的人力物力。在大数据的背景下，人工构建数据库显得更加无力。事实上，在人类发展的历史进程中，大量的知识都通过图书传承下来，图书里面蕴含着海量的知识等待着我们去挖掘利用。幸运的是，越来越多的图书被数字化存储在数字图书馆中，这些图书中存储着大量的结构化的知识片段。但是，这些知识片段都隐含在海量资源中，且只是按作者意图组织。显然，如果能从这些数字资源中抽取知识片段、关联、重组和融合，形成按照一定目标、主题组织的内容，将会产生更大的价值。
技术实现思路
本专利技术的目的是充分利用图书中的结构化的知识片段，从图书目录中抽取知识进行关联重组和融合，弥补从网页中抽取知识的不足。本专利技术的目的是通过以下技术方案来实现的：一种基于图书目录的专题自动生成方法，包括以下步骤：1)数据预处理：利用光学字符识别技术将图书数字化，从数字化的图书中抽取出图书目录和正文，去除目录中章节序号，以及停用词，分别对目录章节和正...

【技术保护点】
一种基于图书目录的专题自动生成方法，其特征在于包括以下步骤：1)数据预处理：利用光学字符识别技术将图书数字化，从数字化的图书中抽取出图书目录和正文，去除目录中章节序号，以及停用词，分别对目录章节和正文构建索引，另外利用word2vec训练出每个目录词的向量表示；2).实体识别：分析实体的特征，对目录章节索引中的所有章节词，分析每个章节词是否满足实体特征，利用SVM分类器进行分类，修改原有目录章节索引，将目录章节中所有分类后不属于实体的词去掉形成新的索引；3).上下位词抽取：分析上下位词的特征，对上一步构建的索引中的每一对上下级章节词，分析其是否满足上下位词的特征，利用Adaboost分类器进行分类，将所有分类后满足上下位关系的词对写入新的索引中，新索引中根据不同的字段来区分上位词、下位词和图书；4).概念层次融合：利用上一步生成的索引，对每一本书，把上位词和其所有下位词作为一组，对所有的图书中相同的上位词，计算其下位词相似度，把相似度大于设定阈值的上位词进行融合；5).专题生成：专题分为专题目录和专题内容，专题内容分为图书内容和网页内容，通过融合后的上下位词构建树形概念层次组成专题目录...

【技术特征摘要】
1.一种基于图书目录的专题自动生成方法，其特征在于包括以下步骤：1)数据预处理：利用光学字符识别技术将图书数字化，从数字化的图书中抽取出图书目录和正文，去除目录中章节序号，以及停用词，分别对目录章节和正文构建索引，另外利用word2vec训练出每个目录词的向量表示；2).实体识别：分析实体的特征，对目录章节索引中的所有章节词，分析每个章节词是否满足实体特征，利用SVM分类器进行分类，修改原有目录章节索引，将目录章节中所有分类后不属于实体的词去掉形成新的索引；3).上下位词抽取：分析上下位词的特征，对上一步构建的索引中的每一对上下级章节词，分析其是否满足上下位词的特征，利用Adaboost分类器进行分类，将所有分类后满足上下位关系的词对写入新的索引中，新索引中根据不同的字段来区分上位词、下位词和图书；4).概念层次融合：利用上一步生成的索引，对每一本书，把上位词和其所有下位词作为一组，对所有的图书中相同的上位词，计算其下位词相似度，把相似度大于设定阈值的上位词进行融合；5).专题生成：专题分为专题目录和专题内容，专题内容分为图书内容和网页内容，通过融合后的上下位词构建树形概念层次组成专题目录，利用数据预处理阶段生成的图书正文索引检索每个词所出现的图书章节和内容，同时利用百度百科检索每个词的网页内容。2.根据权利要求1所述的一种基于图书目录的专题自动生成方法，其特征在于步骤1)中所述的去除目录中章节序号，以及停用词，分别对目录章节和正文构建索引，具体为：1.1).去除目录中章节序号，统计章节，分析章节序号特点，使用正则表达式去除章节序号；1.2).对去除目录章节号的词，统计每个词出现的次数，选出出现频率最高的2000个，筛选出停用词；1.3).对目录章节构建索引时，索引字段包括图书编号，类别，上级章节词，下...

【专利技术属性】
技术研发人员：鲁伟明，李彬，庄越挺，吴飞，魏宝刚，
申请(专利权)人：浙江大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人