当前位置: 首页 > 专利查询>浙江大学专利>正文

一种基于数据重构的文档摘要提取方法技术

技术编号:8131127 阅读:210 留言:0更新日期:2012-12-27 03:22
基于数据重构的文档摘要提取方法,从文档数据库中获取文档,作为待提取摘要的目标文档;针对每个目标文档,提取该文档中的每一个句子,作为该文档摘要的备选句子库;统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量;利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子;将挑选的句子提取出来,组成该目标文档的摘要。本方法的优点在于:可以帮助用户,尤其是视觉障碍的残疾人用户,以包含较少文字的摘要的形式快速了解原文档的主要内容。

【技术实现步骤摘要】

本专利技术涉及文档摘要提取方法的
,特别是基于数据重构的文档摘要提取方法
技术介绍
世界上约有盲人3000万人左右,中国约有500万盲人,占世界总数的18%,随着互联网的高度普及和互联网在日常生活中重要性的不断上升,如何帮助盲人从互联网上迅速获取信息将成为无障碍建设中的重要问题。盲人由于无法通过视カ接受信息,所以其获取文本内容的问题特别突出,传统盲人依靠读屏软件逐字了解网页文字内容的过程大大限制了其获取网页文本信息的速度。而且现在的网站内容在越来越丰富的同时,也包含了越来越多的冗余信息。面对文本信息量如此庞大的互联网,为盲人提供一种文档摘要提取方法, 将文档信息精炼成既包含文档中心思想又包含最少冗余信息的摘要形式显得尤为重要。目前已有的文档摘要工作基本从句子排序入手,然后逐个选取得分最高的句子,最后组成摘要。这类方法很难在包含文档中心思想的同时,保证摘要结果包含最少冗余信息。因此,我们提出了,从数据重构的角度入手,保证摘要句子利用重构过程中能够包含目标文档的中心思想,同时通过求解最优摘要句子的过程保证最后摘要结果包含最少的冗余信息。
技术实现思路
为了克服现有文档摘录方法无法在本文档来自技高网...

【技术保护点】
一种基于数据重构的文档摘要提取方法,该方法的特征在于:1)从文档数据库中获取文档,作为待提取摘要的目标文档;2)针对每个目标文档,提取该文档中的每一个句子,作为该文档摘要的备选句子库;3)统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量;4)利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子;5)将挑选的句子提取出来,组成该目标文档的摘要。

【技术特征摘要】
1.一种基于数据重构的文档摘要提取方法,该方法的特征在于 1)从文档数据库中获取文档,作为待提取摘要的目标文档; 2)针对每个目标文档,提取该文档中的每ー个句子,作为该文档摘要的备选句子库; 3)统计所有关键词在所有文档中的权重信息,并以此将备选句子库中的每个句子表示成一个向量; 4)利用数据重构算法,从备选句子库中挑选出既包含文档中心思想又包含最少冗余信息的最优摘要句子; 5)将挑选的句子提取出来,组成该目标文档的摘要。2.如权利要...

【专利技术属性】
技术研发人员:陈纯卜佳俊何占盈王灿李平
申请(专利权)人:浙江大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1