当前位置: 首页 > 专利查询>苏州大学专利>正文

基于特征信息的Blog自动摘要方法技术

技术编号:9034032 阅读:197 留言:0更新日期:2013-08-15 00:52
本发明专利技术在于公开了一种基于特征信息的Blog自动摘要方法,其步骤包括:基于特征信息的语句得分;基于潜在语义的评论关注得分;摘要复选与合并;经过如上处理后,即为本发明专利技术最终所得到的摘要句集合;该方法在充分利用Blog特征信息的基础上,基于潜在语义相关性来融合评论中的关注点,生成对读者更为友好的摘要,同时通过摘要复选的方法平衡了主题覆盖与信息冗余;本发明专利技术利用潜在语义相关性解决了评论和正文间的同义噪音问题;本方法生成的摘要对读者更为友好,准确性更高。

【技术实现步骤摘要】

本专利技术涉及自动摘要领域,尤其涉及一种。
技术介绍
随着Web2.0的兴起,Blog这种新的信息传播和交互方式不断流行,其影响力也在日益扩大,在即时性与多样性方面已经超过传统媒体,给现实世界带来了巨大影响,越来越受到网民和企业界的重视。面对巨大的Blog用户规模所带来的海量Blog信息,读者如何去查找和阅读自己感兴趣的内容就变成了一个难题。在自动摘要研究中,一方面更为多样化的表达方式和更为复杂的段落结构给面向Blog的自动摘要带来了挑战,但另一方面,由于Blog本身比传统网页增加了标签、评论等额外信息,也提供了生成更为准确的自动摘要的可能。传统搜索引擎基于截取式的摘要提供,往往不能准确反映文章内容的大意,而一个好的摘要能够让用户在不浏览详细内容的情况下快速地了解文章的大意,并迅速判断有无必要继续深入阅读,在如今这个信息爆炸的时代,这无疑具有十分重要的意义。
技术实现思路
针对现有摘要方法所存在的问题和不足,本专利技术的目的是提供一种,从而提高摘要的准确率和用户阅读的阅读体验。为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现: ,包括以下步骤: 步骤I)基于特征本文档来自技高网...

【技术保护点】
基于特征信息的Blog自动摘要方法,其特征在于,包括以下步骤:步骤1)基于特征信息的语句得分,其包括词条特征信息得分和语句特征信息得分;(a)词条特征信息得分利用分词工具对待处理的博文进行分词和词性标注,过滤掉数词、量词、介词等对句意表达不大的词,将预处理后得到的词条集合记为;然后综合考虑博文词频、图的描述信息、标题和标签等因素对WS中的词条进行打分,词条的综合得分公式如下:;(b)语句特征信息得分所述语句特征信息得分所考虑的特征包括位置信息、格式信息和提示词;在综合考虑句子的特征以及其所包含的词条信息的基础上,可以利用公式计算句子的权重得分,公式如下:;步骤2)基于潜在语义的评论关注得分(a...

【技术特征摘要】

【专利技术属性】
技术研发人员:赵朋朋鲜学丰陈明刘全崔志明
申请(专利权)人:苏州大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1