当前位置: 首页 > 专利查询>浙江大学专利>正文

基于图书阅读行为的图书章节摘要生成方法技术

技术编号:10155289 阅读:163 留言:0更新日期:2014-06-30 20:30
本发明专利技术公开了一种基于图书阅读行为的图书章节摘要生成方法。基于图书阅读行为的图书章节摘要生成技术本质上是一种文档摘要生成技术,即将用户阅读行为加入文档摘要生成之中,并且应用于工程科教图书资源上。本发明专利技术首先采用图书页面量化阅读行为评分机制计算图书章节中每页书页的权重大小,然后将图书章节按句子分割,句子之间的相似度按距离计算并将已有的句子权重值按流行结构传播,最后基于数据重构的思想挑选出最能够代表图书章节内容的句子作为图书章节摘要。本发明专利技术将用户阅读行为收集,用于对图书书页的重要性评价中,通过基于数据重构的文档摘要生成思想得到对应的图书章节摘要,进而辅助用户快速了解图书章节内容,提高图书阅读效率。

【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种。基于图书阅读行为的图书章节摘要生成技术本质上是一种文档摘要生成技术,即将用户阅读行为加入文档摘要生成之中,并且应用于工程科教图书资源上。本专利技术首先采用图书页面量化阅读行为评分机制计算图书章节中每页书页的权重大小,然后将图书章节按句子分割,句子之间的相似度按距离计算并将已有的句子权重值按流行结构传播,最后基于数据重构的思想挑选出最能够代表图书章节内容的句子作为图书章节摘要。本专利技术将用户阅读行为收集,用于对图书书页的重要性评价中,通过基于数据重构的文档摘要生成思想得到对应的图书章节摘要,进而辅助用户快速了解图书章节内容,提高图书阅读效率。【专利说明】
本专利技术涉及文档摘要生成方法,尤其涉及一种。
技术介绍
随着数字图书馆的日益发展,用户在阅读图书前,希望能够快速准确的了解图书章节内容信息,迫切希望数字图书馆中能够提供图书章节摘要的服务。图书章节摘要生成本质上是一种基于阅读行为的文档摘要生成方法,即将用户阅读行为建模,根据行为模型将用户阅读因素加入文档摘要生成算法中,得到受用户阅读影响的摘要结果。如果直接采用传统的文档摘要生成方法,图书章节摘要可能不会从用户阅读角度来准确表达章节内容信息,这样也就无法满足用户的需求。在传统的阅读中,读者阅读的目标对象是简单确定的语言符号。在阅读的开始和阅读的结束,读者仅仅通过文字化的内容信息获取并得到认知,是一个脱离于社会的鼓励的存在。基于网络的社会化阅读的出现,使阅读者从阅读内容选择的开始到阅读内容结束,部分或全部过程都与社会化网络形成了关联。在这种人与人之间相互关联的社会网络中,读者的阅读行为往往就成为需要关注和研究的对象。社会化阅读本身是以内容为核心,以社交关系为纽带,注重分享、交流和互动的阅读新模式。用户在内容阅读的过程中,可以与同样喜好的用户进行互动,阅读结束后,可以与阅读同一内容的大众进行交往联系,甚至形成议题融合的社会化。分享、交流和互动贯穿于社会化阅读的全过程。而在这些互动交流中,产生了大量新的有价值的内容,如评论、摘要、笔记、关联或交叉信息。在进行图书章节摘要生成时所采用的基础摘要生成算法是基于数据重构的文档摘要生成算法(DSDR)。基于数据重构的文档摘要生成算法是一种抽取式的方法,该方法认为好的文档摘要应该满足一个特点:从结果摘要能够最大程度的重构原始文档,即的结果摘要能够尽量的覆盖整个文档所表达的内容信息。在基于数据重构的文档摘要生成算法的基础上,把用户在社会化阅读时的各种行为考虑进去,比如阅读的时候用户的重要句子圈画行为,这些被圈画的句子往往被认为有比较高的代表性,与其他没有被圈画的句子相比要具有比较高的影响权重。
技术实现思路
本专利技术的目的是为了提供能够方便用户快速了解图书章节信息的章节摘要,给出了一种。本专利技术解决其技术问题采用的技术方案如下:的步骤如下:I)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制;2)句子权重值传播:通过步骤I)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播;3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。所述的步骤I)为:2.1将用户阅读某页的行为划分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,不同层次对书页有不同的得分贡献;2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度,以此来进行评分,图书页面用户留存率是指对于某图书页面来讲,相对于浏览时的用户数,进行到收藏、浅度阅读和深度阅读的留存用户数的比例,图书页面用户流失率是指对于上一步留存用户数,这一步所减少的用户数的比例,建立基于用户阅读行为的评分公式:Vi=L(P^qi) / Pi] exp (1-Pi) i=l, 2, 3, 4图书页面用户留存率公式:Pi=Ui / U1 i=l, 2, 3, 4图书页面用户流失率公式:【权利要求】1.一种,其特征在于它的步骤如下: 1)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制; 2)句子权重值传播:通过步骤I)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播; 3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。2.根据权利要求1中所述的,其特征在于所述的步骤I)为: 2.1将用户阅读某页的行为划分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,不同层次对书页有不同的得分贡献; 2.2使用留存率、流失率和评分指数衰减来衡量阅读到达某个层次的难度,以此来进行评分,图书页面用户留存率是指对于某图书页面来讲,相对于浏览时的用户数,进行到收藏、浅度阅读和深度阅读的留存用户数的比例,图书页面用户流失率是指对于上一步留存用户数,这一步所减少的用户数的比例, 建立基于用户阅读行为的评分公式: Vi= exp (1-Pi) i=l, 2, 3, 4 图书页面用户留存率公式: 3.根据权利要求1所述的,其特征在于所述的步骤2)为: . 3.1在步骤1)中给出了图书页面j的得分PageScorej,这个得分反映了页面j在图书中的重要性,同时需要考虑被划句子在该书页中具有相对重要性,句子的重要性与页面得分的关系如下: r Li * PageScorej 4.根据权利要求1所述的,其特征在于所述步骤3)为: .4.1得到图书章节句子Vi的权重值权重值反映了句子Vi在图书章节中的重要性,将η个权重值K作为矩阵F的对角元素,对η个权重值进行对角矩阵化,即Fii=A'得到对角矩阵F,将对角矩阵F加入基于数据重构的文档摘要生成算法; .4.2在文档摘要生成过程中重新定义线性非负数据重构算法的目标函数如下: 【文档编号】G06F17/27GK103885935SQ201410090143【公开日】2014年6月25日 申请日期:2014年3月12日 优先权日:2014年3月12日 【专利技术者】鲁伟明, 安文佳, 吴江琴, 庄越挺 申请人:浙江大学本文档来自技高网
...

【技术保护点】
一种基于图书阅读行为的图书章节摘要生成方法,其特征在于它的步骤如下:1)构建图书页面量化阅读行为评分机制:将用户阅读行为按阅读深度由浅到深分为四个层次,分别是浏览层次、收藏层次、浅度阅读层次和深度阅读层次,基于这四个层次得到基于用户阅读行为的图书页面评分机制;2)句子权重值传播:通过步骤1)的基于用户阅读行为的图书页面评分机制得到图书书页量化得分,将图书章节按句子分割,图书书页量化得分会赋予每个句子初始的权重值,基于句子之间的距离,利用数据流行结构上的排序算法进行句子权重值的传播;3)图书章节摘要生成:句子权重值得到传播后,将句子权重值加入基于数据重构的文档摘要生成算法中,从图书章节中挑选重要句子作为章节摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:鲁伟明安文佳吴江琴庄越挺
申请(专利权)人:浙江大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1