当前位置: 首页 > 专利查询>北京大学专利>正文

一种从网页中抽取评论内容的方法和装置制造方法及图纸

技术编号:6995085 阅读:176 留言:0更新日期:2012-04-11 18:40
本发明专利技术公开了一种从网页中抽取评论内容的方法和装置,涉及信息处理技术,通过建立评论页面的DOM树,并选择符合评论区抽取规则的子树抽取出评论区,再利用评论记录间的结构相似性,抽取出评论区中的评论记录,利用包含评论内容的子树的差异性,选择标准差最大的子树作为包含评论内容的子树,最后选取稳定性最小的一条路径中,稳定性差绝对值最大的相邻节点中的孩子节点作为根节点,这个子树就是要抽取的评论内容。由于利用了评论内容的无结构特性来进行抽取,而不是根据网页的模板进行抽取,所以网页的不同不影响抽取的准确性,并且不需要根据网页的模板进行复杂的配置,并通过计算去除了噪声信息,提高了从网页中抽取评论内容的效率和准确性。

【技术实现步骤摘要】

本专利技术涉及信息处理技术,尤其涉及一种从网页中抽取评论内容的方法和装置
技术介绍
Web自上世纪90年代初诞生以来便以惊人的速度发展,到目前Web已经成为了世 界上最大的信息仓库,覆盖了生活中的各个领域,成为了人类工作生活获取信息主要途径 之一。在Web中,主要是以网页的形式发布信息。然而,Web中网页的数量十分庞大,目前, Web中网页的数量已经超过了 5500亿,显然,在如此庞大的数目下,手工方式的访问已经很 难满足人们信息获取的需要,为了让人们更有效地访问和利用Web中的信息,自上世纪90 年代中期开始,研究者们便开始了 Web信息搜索和集成领域的研究,同时也出现了各种Web 信息搜索和集成相关的应用,比如垂直搜索引擎、舆情分析等。这些应用实现的一个必要步 骤就是将所需的信息从结构化程度很差的网页中准确地抽取出来。Web中的评论是指浏览者在具有可以发布评论的网站中,针对网页的主题所发布 的评论,是目前人们在互联网上非常重要的信息获取来源。评论内容在Web信息中占有很 大的比例。基于评论内容产生了许多重要的应用和研究课题,主要包括以下两个方面评论搜索引擎面向评论的垂直搜索引擎,从网站中获取并集成评论,可以为人们 提供即时全面的评论搜索。为了保证评论信息的及时性和全面性,必然要能够对大量的评 论页面的及时处理。舆情分析是近十年自然语言处理和信息检索领域的热点研究课题。其目标是从 连续的记录中识别出系统未知的话题以及与该话题相关的报道。其主要的信息来源之一就 是Web中发布的评论信息。由上面对两类应用的介绍可以看出,评论内容是它们非常重要的数据来源。但由 于Web中网站数量众多,而且评论内容所在的网页通常会包含大量无用的信息,即噪音信 息,这些噪音信息必然会严重影响对信息处理的效率和检索的质量。因此,对评论内容的自 动抽取是许多重要应用迫切需要解决的关键技术问题之一。由于网页绝大部分都是以HTML (Hypertext Markup Language超文本链接标示语 言)语言编写,文档结构化程度很低,而且评论本身缺乏语义的连续性,因此使用传统的数 据库技术和文本处理技术很难从网页中直接识别所需的信息。Web中评论内容的抽取一直 是Web搜索与集成研究领域的热点问题,虽然针对不同的应用场景已经开展了大量的研究 工作,但主要是对在网页中以结构化形式展现的数据的抽取,比如De印Web数据的抽取,对 于非结构化格式数据抽取的研究至今还没有得到解决,尤其是对无结构化格式的评论内容 的抽取。它们的无结构主要表现在三个方面1、评论是由评论者自由撰写的,评论内容在文本长度、信息类型(文本、图片、表 格等)往往没有严格的结构和格式要求。2、评论内容信息的表现格式不一致,即表示相同类型语义的信息格式、表现形式 多样性化,没有统一的标准,比如评论内容在网页中使用的字体以及在页面中位置繁杂不3、缺乏统一的布局标准,即没有一种对同一类体裁的信息统一的布局标准。由于评论内容的无结构,导致很难定义一种严格的抽取模型实现准确的抽取,给 评论内容的抽取带来了极大的挑战性。目前,对评论内容的抽取工作主要存在三个方面的不足抽取的评论内容不完整当评论内容较长并且包含多种信息类型时,抽取结果常 不能包含所有评论内容;抽取的评论内容中混杂有噪音信息比如对评论内容的抽取目前的方法主要是在 网页层次的抽取,由于评论网页通常包含大量噪音信息,严重影响信息处理的质量;抽取准确性不高且不稳定由于目前的抽取方法依赖于评论网页的模板,而不同 网站之间的评论网页得模板存在着较大的差异,所以抽取的准确性较低,根据网页的不同, 抽取的准确性波动也较大,较好的情况也仅在80%左右。怎样用快速的自动方法,准确抽取出网页中的评论内容是很多重要应用所需要 的,但目前尚未发现此类的方法和系统。
技术实现思路
本专利技术实施例提供一种从网页中抽取评论内容的方法和装置,以提高从网页中抽 取评论内容的效率和准确性。一种从网页中抽取评论内容的方法,包括根据评论页面建立文档对象模型DOM树;根据预先设定的评论区抽取规则,抽取出DOM树中符合所述评论区抽取规则的子 树作为评论区树;在评论区树根节点的各子树中,抽取出评论记录树;根据每条评论记录中评论内容的差异性,抽取出包括评论内容的评论记录树;确定出抽取出的包括评论内容的各个评论记录树中的对应节点,并根据每组对应 节点所对应的网页内容的差异性,确定出对应的网页内容的差异性满足设定规则的至少一 组对应节点;抽取所述对应的网页内容差异满足设定规则的至少一组对应节点在网页中对应 的内容。进一步,所述根据预先设定的评论区抽取规则,抽出DOM树中符合所述评论区抽 取规则的子树作为评论区树,具体包括确定出节点所对应的内容所占的面积与页面总面积的比值大于设定的比例的节点。在节点所对应的内容所占的面积与页面总面积的比值大于设定的比例的节点中, 确定所占的面积最小的节点为评论区树的根节点。进一步,所述在评论区树根节点的各子树中,抽取出评论记录树,具体包括确定评论区树的各子树中,每两个子树间的结构相似性;根据所述每两个子树间的结构相似性在所述子树中抽取出评论记录树。进一步,所述根据每条评论记录中评论内容的差异性,抽取出包括评论内容的评论记录树,具体包括确定各个评论记录树与和其结构相似性最大的评论记录树,并根据表征各评论记 录相应区域的评论记录树结构相似性最大的规则,确定构成一条完整评论记录的评论记录 树的数量;根据表征各评论记录相同区域的各评论记录树之间的差异,确定差异最大的一组 评论记录树是表征评论记录中评论内容区域的评论记录树;抽取出各个表征评论记录中评论内容区域的评论记录树作为包括评论内容的评 论记录树。较佳的,所述确定出抽取出的包括评论内容的各个评论记录树中的对应节点,并 根据每组对应节点所对应的网页内容的差异性,确定出对应的网页内容的差异性满足设定 规则的至少一组对应节点,具体包括将所述抽取出的包括评论内容的各个评论记录树对齐,得到对齐树;确定从所述对齐树的根节点到叶子节点,节点稳定性都在兄弟节点中最小的路 径,所述节点稳定性根据所述对齐树中各个节点的重复次数以及该节点在所述评论内容所 在的组中的各个评论记录树中的文本长度确定;在所述稳定性最小的路径中确定出与其父节点稳定性差的绝对值最大的节点;确定以所述与其父节点稳定性差的绝对值最大的节点为根节点的子树为评论内 容树;确定所述评论内容树中的各个节点在抽取出的包括评论内容的各个评论记录树 中对应的节点,为对应的网页内容的差异性满足设定规则的至少一组对应节点。一种从网页中抽取评论内容的装置,包括用于根据评论页面建立文档对象模型DOM树的单元;用于根据预先设定的评论区抽取规则,抽取出DOM树中符合所述评论区抽取规则 的子树作为评论区树的单元;用于在评论区树根节点的各子树中,抽取出评论记录树的单元;用于根据每条评论记录中评论内容的差异性,抽取出包括评论内容的评论记录树 的单元;用于确定出抽取出的包括评论内容的各个评论记录树中的对应节点,并根据每组 对应节点所对应的网页内容的差异性,确定出对应的网页内容的差异性满足设定规则的至 少一组对应节点的单元;用于抽取所述对应的网页内容差异最大的一组对应节本文档来自技高网
...

【技术保护点】
1.一种从网页中抽取评论内容的方法,其特征在于,包括:根据评论页面建立文档对象模型DOM树;根据预先设定的评论区抽取规则,抽取出DOM树中符合所述评论区抽取规则的子树作为评论区树;在评论区树根节点的各子树中,抽取出评论记录树;根据每条评论记录中评论内容的差异性,抽取出包括评论内容的评论记录树;确定出抽取出的包括评论内容的各个评论记录树中的对应节点,并根据每组对应节点所对应的网页内容的差异性,确定出对应的网页内容的差异性满足设定规则的至少一组对应节点;抽取所述对应的网页内容差异满足设定规则的至少一组对应节点在网页中对应的内容。

【技术特征摘要】

【专利技术属性】
技术研发人员:刘伟严华梁万小军杨建武肖建国
申请(专利权)人:北京大学北大方正集团有限公司北京方正电子政务信息科技有限公司北京北大方正电子有限公司
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1