【技术实现步骤摘要】
基于海量数字图书的知识脉络自动构建方法
本专利技术涉及基于海量数字图书的知识挖掘方法,尤其涉及一种基于海量数字图书的知识脉络自动构建方法。
技术介绍
图书是老师和学生之间传递知识的重要媒介。最近十年间,一些项目,例如“谷歌图书”和“百万图书”项目,开始进行大规模的图书数字化工作。这为用户寻找并阅读图书提供了极大的帮助。但是,图书数量的丰富也造成了一定的干扰,当学习一个主题时,我们往往会陷入到成千上万本图书中。因此,把这成千上万本图书综合进一个简洁但又全面的图片中将会极大地方便知识的学习。目前有一些研究者开始研究如何进行新闻、科学文献、用户生成内容和专利领域的摘要抽取和可视化来避免信息过载。但是,还没有相关工作对有相同主题的书籍进行合成,形成全面的知识脉络图来帮助用户有效地学习。而且,上述领域的摘要提取技术也不适用于大量图书的合成摘要处理,原因有以下几点:首先,文本相似度计算可以方便进行文章的链接,从而生成具有故事情节的文章摘要。但是,图书往往具有非常丰富且冗长的文本信息,依靠文本相似度来进行图书之间的相似度计算是不可取的。其次,图书缺少时态信息和引用信息,这导致用 ...
【技术保护点】
一种基于海量数字图书的知识脉络自动构建方法,其特征在于,包括以下步骤:1)图书预处理:将数字图书的元数据信息存储到Lucene索引文件中;用XML解析器将目录的结构解析出来,并清洗目录标题中的冗余信息;2)知识单元构建:对于用户检索主题q,从步骤1)中构建的Lucene索引中查询出相关图书集合,将相关图书的所有一级目录标题进行分词处理,通过word2vec方法得到词语的向量表示,对目录标题中的主题词和描述词分别赋予不同的权重,最终用加权的方式计算目录标题之间的相似度;通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合;3)知识图构建:用步骤2)中构建 ...
【技术特征摘要】
1.一种基于海量数字图书的知识脉络自动构建方法,其特征在于,包括以下步骤:1)图书预处理:将数字图书的元数据信息存储到Lucene索引文件中;用XML解析器将目录的结构解析出来,并清洗目录标题中的冗余信息;2)知识单元构建:对于用户检索主题q,从步骤1)中构建的Lucene索引中查询出相关图书集合,将相关图书的所有一级目录标题进行分词处理,通过word2vec方法得到词语的向量表示,对目录标题中的主题词和描述词分别赋予不同的权重,最终用加权的方式计算目录标题之间的相似度;通过自底向上的凝聚型层次聚类算法对q相关图书的目录进行聚类得到知识单元集合;3)知识图构建:用步骤2)中构建的知识单元作为结点,用图书中章节之间的偏序关系构建结点之间的邻接关系构成有向图,即知识图;4)学习路径选择:使用动态规划算法遍历步骤3)得到的知识图,得到所有的学习路径,引入信息度和流畅度计算公式,信息度衡量路径中是否包含重要的结点和重要的结点对,知识单元对{oi,oi+1}的信息度w(oi,oi+1)计算公式如下:其中,freq(oi)指知识单元oi中包含的目录数,dif(b,i)指知识单元oi和oi+1中同属于书b中的两个目录之间的距离,如果两个目录和在同一本书b中,且它们又分别属于知识单元oi和oi+1,那么表示目录在书b中的相对位置,否则,dif(b,i)=∞;Bq表示用户检索主题q相关的图书集合;路径的信息度I(pi)计算公式如下:其中,|pi|为路径pi的长度,s为路径开始,e为路径结束;流畅度衡量学习路径中知识单元之间顺序的质量,对于路径使用语言模型来计算其流畅度F(pi),计算公式如下:其中,p(oi|oi-2oi-1)指给定oi-2oi-1的情况下出现oi的概率,c(oi-2oi-1oi)指知识单元oi-2,oi-1,oi同时出现的次数;路径pi的打分s(pi)=I(pi)·F(pi),用整数线性规划优化框架选择最好的TOPK条学习路径,求解器的目标函数如下:其中,|Pq|表示用户检索主题q相关的路径集合Pq的数量,di是一个二进制变量,取值为0或1,取决于路径pi是否被选择;约束条件如下:a)确保只有不超过K条路径被选择:b)如果两条路径的相似度sim(pi,pj)大于等于阈值那么只有一条可以被选择,即:其中,sim(pi,pj)使用jaccard相似度公式计算;最终,从知识图中挖掘出TOPK条重要、有序且冗余小的学习路径;5)知识脉络可视化:将步骤4)选择出的学习路径构成的知识脉络进行可视化展示。2.根据权利要求1所述的基于海量数字图书的知识脉络自动构建方法,...
【专利技术属性】
技术研发人员:鲁伟明,马朋坤,魏宝刚,庄越挺,
申请(专利权)人:浙江大学,
类型:发明
国别省市:浙江,33
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。