当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于图书目录的专题自动生成方法技术

技术编号:13601718 阅读:147 留言:0更新日期:2016-08-27 17:40
本发明专利技术公开了一种基于图书目录的专题自动生成方法。对每一本书,把目录中每个章节当作一个词语,提取出词语的特征,训练出一个分类器识别出书目录中的实体,对于书目录中每一对属于实体的上下级章节词抽取出符合上下位关系的章节对。根据上下位关系构建每个词的概念层次结构,对所有图书中相同的或相似的概念层次进行融合。对概念层次中的每一个概念词语,检索其在网页中和图书中的内容作为该词语的描述内容。最后,把概念层次及概念词内容组织成专题形式。本发明专利技术利用图书目录的结构化信息和机器学习相关算法实现了知识的抽取和重组,在编写专题时可以借鉴,可以大大减少相关工作的人力成本,具有较高的实用性。

【技术实现步骤摘要】

本专利技术涉及自然语言处理和机器学习领域,尤其涉及基于图书目录的专题自动生成方法
技术介绍
随着计算机科学技术的快速发展,网络数据也随之呈爆炸式增长,这些网络数据具有来源广泛、无结构、无层次、成分复杂、多噪音等特点。如何从中抽取知识并按照一定方式组织应用成了自然语言处理、机器学习和信息检索等领域的一大热门方向。知识库为该问题提供了一种可行的解决方案,然而,大规模知识库的构建仍然是一个极具挑战的任务。WordNet,EurowordNet,Cyc都是由领域专家人工编撰的知识库。尽管它们具有高质量,但是在规模、知识覆盖度、更新周期等方面明显不足,另外通过人工编写,需要耗费大量的人力物力。在大数据的背景下,人工构建数据库显得更加无力。事实上,在人类发展的历史进程中,大量的知识都通过图书传承下来,图书里面蕴含着海量的知识等待着我们去挖掘利用。幸运的是,越来越多的图书被数字化存储在数字图书馆中,这些图书中存储着大量的结构化的知识片段。但是,这些知识片段都隐含在海量资源中,且只是按作者意图组织。显然,如果能从这些数字资源中抽取知识片段、关联、重组和融合,形成按照一定目标、主题组织的内容,将会产生更大的价值。
技术实现思路
本专利技术的目的是充分利用图书中的结构化的知识片段,从图书目录中抽取知识进行关联重组和融合,弥补从网页中抽取知识的不足。本专利技术的目的是通过以下技术方案来实现的:一种基于图书目录的专题自动生成方法,包括以下步骤:1)数据预处理:利用光学字符识别技术将图书数字化,从数字化的图书中抽取出图书目录和正文,去除目录中章节序号,以及停用词,分别对目录章节和正文构建索引,另外利用word2vec训练出每个目录词的向量表示。具体步骤为:1.1).去除目录中章节序号,统计章节,分析章节序号特点,使用正则表达式去除章节序号;1.2).对去除目录章节号的词,统计每个词出现的次数,选出出现频率最高的
2000个,筛选出停用词;1.3).对目录章节构建索引时,索引字段包括图书编号,类别,上级章节词,下级章节词;1.4).对正文构建索引时,索引字段包括图书编号,正文内容,正文对应的章节名称;1.5).word2vec训练语料的处理,输入语料每一行对应目录索引中一个分好词的章节和未分词的章节,输入开源的word2vec软件包中,训练完成后,把每个词的词向量写入索引中便于查询。2).实体识别:分析实体的特征,对目录章节索引中的所有章节词,分析每个章节词是否满足实体特征,利用SVM分类器进行分类,修改原有目录章节索引,将目录章节中所有分类后不属于实体的词去掉形成新的索引Concept。具体步骤为:2.1).提取每个词的特征,实体的特征具体包括3类:单词特征、词性特征、目录语义特征,单词特征包括词语长度、词的词性组成以及该词是否被百度百科收录;词的词性组成是指利用自然语言处理工具对词语进行分词之后词组的词性组成;目录语义特征是指目录中每个章节与上下文章节之间的关系、利用word2vec训练出的词向量分别计算该词与上下文词之间的相似度和上下文章节词是否被百度百科中收录;word2vec是谷歌公司在2013年开发的一款用于训练词向量的软件工具,经过训练可以把词表达称向量的形式。2.2)根据上一步提取的实体的特征,标记一部分实体章节词和非实体章节词作为训练集,利用weka中SVM分类器进行分类,修改原有目录章节索引,将目录章节中所有分类后不属于实体的词去掉形成新的索引Concept。3).上下位词抽取:分析上下位词的特征,对上一步构建的索引中的每一对上下级章节词,分析其是否满足上下位词的特征,利用Adaboost分类器进行分类,将所有分类后满足上下位关系的词对写入新的索引中,新索引中根据不同的字段来区分上位词、下位词和图书;具体步骤为:3.1).对索引Concept中的每一对上级章节实体词x和下级实体词y,抽取分类特征,上下位词的分类特征包括3类:上下位模式特征,语义特征,目录结构特征。上下位模式特征有x和y是否共享前缀或后缀;语义特征有归一化谷歌距离NGD,归一化编辑距离NED,分类相似度,word2vec距离。目录结构特征有归一化目录距离NCD和每个词所出现的不同的上级章节数。NGD是一种利用词在谷歌索引的网页语料库中共现关系来计算两词之间相关关系的衡量方式。谷歌距离NGD的计算方式为:NGD(x,y)=max{logN(x),logN(y)本文档来自技高网
...

【技术保护点】
一种基于图书目录的专题自动生成方法,其特征在于包括以下步骤:1)数据预处理:利用光学字符识别技术将图书数字化,从数字化的图书中抽取出图书目录和正文,去除目录中章节序号,以及停用词,分别对目录章节和正文构建索引,另外利用word2vec训练出每个目录词的向量表示;2).实体识别:分析实体的特征,对目录章节索引中的所有章节词,分析每个章节词是否满足实体特征,利用SVM分类器进行分类,修改原有目录章节索引,将目录章节中所有分类后不属于实体的词去掉形成新的索引;3).上下位词抽取:分析上下位词的特征,对上一步构建的索引中的每一对上下级章节词,分析其是否满足上下位词的特征,利用Adaboost分类器进行分类,将所有分类后满足上下位关系的词对写入新的索引中,新索引中根据不同的字段来区分上位词、下位词和图书;4).概念层次融合:利用上一步生成的索引,对每一本书,把上位词和其所有下位词作为一组,对所有的图书中相同的上位词,计算其下位词相似度,把相似度大于设定阈值的上位词进行融合;5).专题生成:专题分为专题目录和专题内容,专题内容分为图书内容和网页内容,通过融合后的上下位词构建树形概念层次组成专题目录,利用数据预处理阶段生成的图书正文索引检索每个词所出现的图书章节和内容,同时利用百度百科检索每个词的网页内容。...

【技术特征摘要】
1.一种基于图书目录的专题自动生成方法,其特征在于包括以下步骤:1)数据预处理:利用光学字符识别技术将图书数字化,从数字化的图书中抽取出图书目录和正文,去除目录中章节序号,以及停用词,分别对目录章节和正文构建索引,另外利用word2vec训练出每个目录词的向量表示;2).实体识别:分析实体的特征,对目录章节索引中的所有章节词,分析每个章节词是否满足实体特征,利用SVM分类器进行分类,修改原有目录章节索引,将目录章节中所有分类后不属于实体的词去掉形成新的索引;3).上下位词抽取:分析上下位词的特征,对上一步构建的索引中的每一对上下级章节词,分析其是否满足上下位词的特征,利用Adaboost分类器进行分类,将所有分类后满足上下位关系的词对写入新的索引中,新索引中根据不同的字段来区分上位词、下位词和图书;4).概念层次融合:利用上一步生成的索引,对每一本书,把上位词和其所有下位词作为一组,对所有的图书中相同的上位词,计算其下位词相似度,把相似度大于设定阈值的上位词进行融合;5).专题生成:专题分为专题目录和专题内容,专题内容分为图书内容和网页内容,通过融合后的上下位词构建树形概念层次组成专题目录,利用数据预处理阶段生成的图书正文索引检索每个词所出现的图书章节和内容,同时利用百度百科检索每个词的网页内容。2.根据权利要求1所述的一种基于图书目录的专题自动生成方法,其特征在于步骤1)中所述的去除目录中章节序号,以及停用词,分别对目录章节和正文构建索引,具体为:1.1).去除目录中章节序号,统计章节,分析章节序号特点,使用正则表达式去除章节序号;1.2).对去除目录章节号的词,统计每个词出现的次数,选出出现频率最高的2000个,筛选出停用词;1.3).对目录章节构建索引时,索引字段包括图书编号,类别,上级章节词,下...

【专利技术属性】
技术研发人员:鲁伟明李彬庄越挺吴飞魏宝刚
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1