当前位置: 首页 > 专利查询>北京大学专利>正文

基于用户评论文本特征的自动摘要方法及其自动摘要系统技术方案

技术编号:3856799 阅读:242 留言:1更新日期:2012-04-11 18:40
一种基于用户评论文本特征的自动摘要方法及其自动摘要系统,该方法包括以下步骤:爬取并解析用户评论网页,并对用户评论进行一系列预处理;从用户评论中识别出被用户评价的特征;将用户评论句按其评价的特征进行分类,并根据评论句分类的结果过滤特征;以及计算评论句的得分,抽取若干文摘句生成摘要。本发明专利技术能够从大量用户评论中准确地识别用户关注的特征,根据评论的特征进行评论句分类,然后使用基于句子抽取的文本摘要方法自动生成简洁、全面的摘要,从而帮助用户显著提高获取知识的效率和质量;本发明专利技术应用于电子商务领域能够缩短用户挑选商品的时间,提高购物效率,改善购物体验。

【技术实现步骤摘要】

本专利技术涉及一种针对用户评论的文本特征进行文本自动摘要的自动摘要方 法及其自动摘要系统,属于知识挖掘

技术介绍
基于文本特征的自动摘要技术是使用计算机技术自动地为电子文档生成 "一段较原文短小且涵盖了原文中重要信息的文本"。随着互联网的深入发展, 信息爆炸式增长使得文本自动摘要技术的应用越来越广泛。根据处理对象的不 同,文本摘要可分为单文档自动摘要和多文档自动摘要两类。单文档自动摘要技术是为单一文档自动生成摘要的技术,主要采用基于句 子抽取的方法,即首先依据词频、句子的位置、句法结构、文档结构等因素计 算句子的得分,然后选取得分最高的若干句子作为文摘句,将所有文摘句按它 们在原文中的顺序组织成文摘。此外,单文档自动摘要还可以采用基于自然语 言理解的文摘生成方法,利用语言学知识分析文本的深层语言结构,并且利用 领域知识对语义进行判断、推理,得到文档的语义表示,然后根据文档的语义 表示生成摘要。相较而言,句子抽取的方法较简单,适用范围广;而基于自然 语言理解的文摘生成方法十分复杂,且依赖于领域知识库,具有严格领域受限 的特性。因此,目前主流的单文档自动摘要仍然采取基于句子抽取的方法。多文档自动摘要是为同一主题下的多个文档自动生成摘要,需要考虑不同 文档内容上的冗余与冲突。多文档自动摘要主要有三类方法(1)使用信息抽取技术抽取各个文档中的重要信息,人工定制或半自动地生成摘要的模板,将 抽取的信息填入模板生成摘要;(2)首先使用单文档文摘技术为各个文档生成 摘要,然后过滤其中冗余和冲突的内容,将剩余内容组织生成摘要;(3)首先 对组成文档的所有句子进行分类或聚类,然后从各个集合中选取表现主题的句5子组织成文摘。采用第三种方法的一个典型工具是MEAD,具体参见Radev D R, Jing H, Stys M, et al. Centroid-based summarization of multiple documents. Information Processing and Management, 2004, 40:919-938。 MEAD是一个基 于文档聚类和文档集合特征的多文档自动摘要系统,MEAD先对多文档中的句子 进行聚类,使用统计方法选取各个句子集合中词频最高的词和短语组成伪句子 作为集合的"质心",然后计算集合中其他句子与质心的相似度作为句子的得分, 最后选取各个集合中得分最高的句子作为文摘句,将文摘句组织起来生成文档 摘要。随着Web2. 0的发展,互联网逐渐成为一个人们可以自由发表言论的平台, 网络上开始出现大量的包含丰富的主观见解的文本,如用户评论等。目前,文 本自动摘要的研究对象主要是科技文献和新闻等具有严谨的文档结构、语言风 格相对统一、陈述客观事实的文本;而用户评论往往是针对事物特定方面表达 主观见解的文本,其具有结构灵活松散、语言风格多样化特点。考虑到用户评 论的以上特点,本专利技术采用了基于特征的分类方法,即首先分析大量评论,从 中识别出用户评论的所有特征,然后根据句子评价的特征对单个评论句进行分 类。目前情感分析领域提出了一些从用户评论中识别特征的方法,如频繁项集 挖掘方法,基于概率语言模型的方法,模式发现与模式匹配的方法,以及基于 启发式规则的无监督学习方法等。这些主观性本文数量巨大且分布比较分散,所以要获得其中包含的丰富的 知识往往要花费大量的时间和精力。本专利技术主要采用第三类方法为用户评论生 成摘要,提出一种特征识别与过滤算法,通过对比实验说明特征识别的查准率 和Fl值都有较大的提高。
技术实现思路
为了克服现有技术结构的不足,本专利技术提供一种基于用户评论文本特征的 自动摘要方法及其自动摘要系统,其能够自动为大量的用户评论生成简洁、全面的摘要,以帮助人们更快更好地从用户评论中获取知识。本专利技术特征识别的查 准率和Fl值都有较显著的提高。本专利技术解决其技术问题所采用的技术方案是一种基于用户评论文本特征的自动摘要方法,其包括以下歩骤步骤l,用户评论预处理爬取并解析用户评论网页,得到用户评论,然后 对所述用户评论进行预处理,得到预处理后的用户评论;步骤2,特征识别通过分析所述预处理后的用户评论,从中识别出被用户 评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;歩骤3,评论句分类将所述预处理后的用户评论句按所述候选特征分类, 从而得到相应候选特征的评论句类;步骤4,特征过滤根据所述评论句类对候选特征进行过滤,从而得到最终 特征及其所对应的候选评论句类;步骤5,摘要生成计算所述候选评论句类中每个句子的得分,抽取若干 文摘句生成摘要。上述步骤l中进一步包括,所述爬取并解析用户评论网页是指,针对选取 的特定的事物爬取该事物的所有用户评论网页,得到爬取的用户评论,然后解 析所述爬取的用户评论,获得用户评论文本。上述歩骤1中,对所述用户评论进行预处理是指,标注用户评论中的所所 有词语的词性,去除其中的停用词,并对剩余词语进行词干抽取,得到预处理 后的用户评论文本。上述步骤2中,所述被用户评价的特征是指是用户在评价某件事物时着眼 的某个侧面、某个细节、某个属性或者某个组成部分。上述步骤2中,所述使用统计方法识别出候选特征是指提取所述被用户 评价的特征相应的用户评论句中的所有名词,计算单个名词出现的频率以及任 意两个名词共现的频率;选取出现频率最高的单个名词和共现频率最高的名词作为候选特征。上述步骤4中所述的对候选特征进行过滤是指,根据组成特征的名词在评 论句中出现的相对位置,以及各个特征之间意义上的泛化与特化关系,过滤无 意义和冗余的候选特征。上述步骤5中进一歩包括釆用统计方法计算山表现各个评论句类主题的关 键词,然后根据评论句内容与主题的契合度、评论句的长度以及评论句在整篇 评论中出现的位置,计算评论句的得分,然后抽取用户评论句类中得分最高的 若干原评论句组织生成摘要。种基于用户评论文本特征的自动摘要方法,进一步包括所述采用统计方 法计算出表现各个评论句类主题的关键词是指,在对评论句分类的基础上,使 用统计的方法找出每个类的关键词,构造表示该评论句类主题的伪句子一质心, 计算基于评论句与质心的相似度;所述评论句内容与主题的契合度是指评论句与质心的相似度。一种基于用户评论文本特征的自动摘要系统,其包括用户评论预处理模块其用于爬取并解析用户评论,然后对所述用户评论 进行预处理;特征识别模块其通过分析所述预处理后的用户评论,从用户评论中识别 出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出 候选特征。评论句分类模块其将用户评论句按所述候选特征分类,从而得到相应候 选特征的评论句类;特征过滤模块其根据评论句分类的结果对候选特征进行进一歩过滤,从 而得到感兴趣的候选特征作为最终特征,以及得到所对应的候选评论句类;摘要生成模块其用来计算所述候选评论句类的得分,抽取若干文摘句牛 成摘要。其中,用户评论预处理模块将预处理结果发送到特征识别模块,得到识别 出的候选特征,将经过所述用户评论模块预处理后的用户评论文本和特征识别 模块识别出的候选特征送入评论句分类模块进行分类,得到评论句类;对所述 候选特征进行过滤得到最终特征及其对应的候选评论句类;摘要生本文档来自技高网
...

【技术保护点】
一种基于用户评论文本特征的自动摘要方法,其包括以下步骤:  步骤1,用户评论预处理:爬取并解析用户评论网页,得到用户评论,然后对所述用户评论进行预处理,得到预处理后的用户评论;  步骤2,特征识别:通过分析所述预处理后的用户评论,从中识别出被用户评价的特征,然后从所述被用户评价的特征中,使用统计方法识别出候选特征;  步骤3,评论句分类:将所述预处理后的用户评论句按所述候选特征分类,从而得到相应候选特征的评论句类;  步骤4,特征过滤:根据所述评论句类对所述候选特征进行过滤,从而得到最终特征及其所对应的候选评论句类;  步骤5,摘要生成:计算所述候选评论句类中每个句子的得分,抽取若干文摘句生成摘要。

【技术特征摘要】

【专利技术属性】
技术研发人员:张铭章彦星
申请(专利权)人:北京大学
类型:发明
国别省市:11[中国|北京]

网友询问留言 已有1条评论
  • 来自[北京市电信互联网数据中心] 2015年02月01日 09:52
    古典文学常见论文一词,谓交谈辞章或交流思想。当代,论文常用来指进行科学研究和描述科研成果的文章,简称之为论文。它既是探讨问题进行科学研究的一种手段,又是描述科研成果进行学术交流的一种工具。它包括学年论文、毕业论文、学位论文、科技论文、成果论文等,总称为论文。
    0
1