一种多文档自动文摘方法技术

技术编号:2827132 阅读:247 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种利用图划分方法来自动提取多文档文摘的方法,包括以下步骤:进行句子边界切分,把文档用切分出来的句子表示;将句子表示成向量,计算句子两两间的相似度构成句子关联矩阵,并按指定的阈值对关联矩阵进行约简,同时进行规范化处理;在多文档文摘中引入主题的隐性逻辑结构的挖掘,将文档集按主题划分成不同的隐性子主题,从而把文摘任务转化为对子主题的选取和抽取过程;利用图划分的方法,既从全局特性上保证句子所在子主题的重要度,又从局部特性上保证不同子主题之间内容的低冗余性,从而有效提高了文摘质量。

【技术实现步骤摘要】

本专利技术涉及信息处理领域,进一步地,涉及到。
技术介绍
随着时代的进步和经济的发展,人们日常生活中对信息的需求量越来 越大,尤其是随着互联网的日益普及,每天都有海量的信息在互联网上发布和传播。以中国互联网的发展为例,根据北大天网提供的搜索结果,2005 年底中国的网页总数约为10.8亿个,另据CNNIC的统计,截至2007年3 月底,中国WAP网页数量约为2.6亿,网页字节凄t约为800GB。网页规 模急剧增长的互联网,在为人们提供更加丰富的信息服务的同时,也给人 们带来了如何高速有效获取有用信息的困惑。以搜索引擎为代表的信息检 索技术可以根据用户的需求从海量信息中找出 一批相关网页,提高了信息 获取的效率。但这种方法很大程度上依赖于对于用户查询的准确理解以及 查询结果的排序策略,同时在返回的查询结果的基础上还需要用户自己逐 个网页查看以获取真正想要的信息,在用户查询意图不明确时难以做到准 确高效,另外受搜索引擎采集和存储能力的影响,很难保证无信息的遗漏。 在信息极大丰富的情况下,人们迫切需要取代获取相关信息、直接获取有 用信息甚至最有价值信息的方法,以进一步减轻信息获取的工作量本文档来自技高网...

【技术保护点】
一种多文档自动文摘方法,包括下列步骤:1)把文档集进行句子边界切分,用向量空间模型表示句子;2)计算所述句子向量间的距离构成句子关联矩阵;3)根据所述句子关联矩阵计算初始句子权重向量;4)根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关联矩阵中划分出所述对应句子所代表子主题所在的子矩阵,更新句子关联矩阵;5)重复步骤3)和4),完成文摘。

【技术特征摘要】
1.一种多文档自动文摘方法,包括下列步骤1)把文档集进行句子边界切分,用向量空间模型表示句子;2)计算所述句子向量间的距离构成句子关联矩阵;3)根据所述句子关联矩阵计算初始句子权重向量;4)根据所述初始句子权重向量,选取权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关联矩阵中划分出所述对应句子所代表子主题所在的子矩阵,更新句子关联矩阵;5)重复步骤3)和4),完成文摘。2. 如权利要求l所述的方法,其特征在于所述步骤3)包含根据所述 初始句子权重向量、句子对主题的贡献度和句子位置偏好性计算句子权重 调整模型;所述步骤4)根据所述句子权重调整模型,选取当前权重最大的结点, 把此结点所对应的句子作为候选文摘句,从所述句子关联矩阵中划分出所 述对应句子所代表子主题所在的子矩阵,更新句子关联矩阵。3. 如权利要求l所述的方法,其特征在于所述步骤2)包含对所述句 子关联矩阵进行规范化,形成句子关系图;所述步骤3 )根据所述句子关系图计算初始句子权重向量;所述步骤4 )根据所述初始句子权重向量,选取当前权重最大的结点,把此结点所对应的句子作为候选文摘句,从所述句子关系图中划分出所述对应句子所代表子主题所在的子图,更新句子关系图。4. 如权利要求2所述的方法,其特征在于所述步骤2)包含对所述句 子关联矩阵进行规范化,形成句子关系图;所述步骤3 )根据所述句子关系图计算初始句子权...

【专利技术属性】
技术研发人员:张瑾许洪波王小磊
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1