一种基于时间串的论坛页面信息自动抽取方法及系统技术方案

技术编号:10867084 阅读:87 留言:0更新日期:2015-01-07 08:12
本发明专利技术公开了一种基于时间串的论坛页面信息自动抽取方法及系统。该方法包括创建文件对象模型树,清除文件对象模型树中的无用标签和空标签;根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息;遍历所述文件对象模型树,获取包含网页地址的新节点,通过关键字列表或正则式列表,对网页地址进行关键字查找或正则式查找;若网页地址包含关键字列表中的关键字或所述正则式列表中的正则式,则获取新节点及其子节点包含的文本信息,文本信息为所述单楼页面的用户名信息。

【技术实现步骤摘要】
—种基于时间串的论坛页面信息自动抽取方法及系统
本专利技术涉及网络信息抽取方法,特别是一种基于时间串的论坛帖子自动抽取方法及系统。
技术介绍
互联网成为了许多人生活中不可或缺的一部分,而且内容越来越丰富,然而,随着内容的丰富、规模的扩大、用户数量的急剧增长,信息爆炸给人们也带来了相当大的困扰一人们无法快速、准确地获取自己想要得到的信息,这一方面是由于数据量大,找到想要的信息犹如大海捞针;另一方面,还因为各种网页噪音(广告等)、垃圾网页等一些用户不想看到的信息在泛滥,针对前者,目前比较好的解决方式是搜索引擎和个性化推荐引擎,搜索引擎可以让用户自定义的去查找用户自己想要的信息,而个性化推荐引擎试图自动寻找用户大概想要的内容,对用户进行推送。目前通常的搜索引擎、个性化推荐引擎采用的是对网页文本进行处理、分析(分词、建索引、排序等),而如果不对网页中的噪音信息进行处理,最终系统搜索或推荐出的内容质量也会大打折扣。 为了解决上面这些问题,网络信息抽取技术应需求而生。该技术的目标是将网页中的信息提取并表示为结构化的、计算机可以存储和理解的格式。信息抽取的质量直接影响系统的效果,因此,网络信息抽取研究具有重大的应用价值。 目前,按照是否需要模板,可以将信息抽取方法分为模板相关与模板无关的方法。模板相关的方法是指通过人工标注或者自动算法寻找到网页中关键信息的位置,并记录为模板,以便用来抽取结构相似的页面,这种方式在抽取时速度快,缺点是如果采用人工标注的话会耗费大量的人力,模板的维护代价高,可扩展性差;模板无关的方法是指对于每个待处理的页面,通过自动化的抽取方法获取网页的关键信息,一般是基于网页的结构特征或者文本特征,这种方法的优点是全自动化,无需人工标注,也没有模板维护的代价,但是抽取效率以及准确率偏低。 对于论坛类页面,目前模板无关的方法一般是基于页面结构的相似性,寻找重复结构,从而找到页面中记录所在的位置。但是对于主楼与跟贴结构不同的论坛页面(比如天涯论坛),会导致主楼信息很容易丢失;对于单楼页面(只有一个帖子),由于不符合算法中关于页面存在相似、重复结构的假设,导致抽取效果很差。 自动化抽取方法在对自动化要求较高的应用场合中发挥着重要作用,在实时信息采集系统中,单楼页面的比例较高,导致自动抽取方式抽取效果较差。 专利技术专利“一种多记录网页的信息抽取系统及方法”,该专利技术涉及一种多记录网页的信息抽取系统及方法,该系统包括:一个网页预处理模块,用于将HTML网页转换为XHTML网页,并过滤网页中用来渲染显示效果的标签,然后根据标签的嵌套结构,构建文档次序树;一个记录区域定位模块,用于接收文档次序树,并利用横向层次分析法在文档次序树中定位出记录区域的位置;一个记录分隔符识别模块,用于从记录区域中找到记录之间的分隔符并进行存储;以及一个记录输出模块,用于将记录区域里所有文本节点按层次顺序遍历输出,在碰到分隔符时输出分隔线,得到最终的抽取结果。该系统及方法能够高效、准确地对传统和新式多记录网页进行信息抽取,抽取速度快、准确度高,通用性强,适用范围广。该专利技术通过建立文档次序树、并结合分隔符来抽取多记录内容,与本专利技术基于时间串寻找记录的方式完全不同。 专利技术专利“一种Web论坛信息抽取系统”,该专利技术公开了一种Web论坛信息抽取系统,该系统包括如下模块:网页采集模块,用于根据用户指定的论坛站点和相应的版块自动下载论坛网页;网页解析模块,用于对网页内容进行清洗,形成网页的文档对象模型(DOM)以便信息抽取算法的实施;在线抽取模块,用于根据论坛网页的布局结构特点对网页中的指定信息进行抽取;数据库存储模块,用于将所抽取的内容存储在数据库系统中以便进行其它的应用;该专利技术的能对互联网上多种论坛的指定信息进行自动抽取,且有很高的准确率。但该专利技术通过计算结构相似性,并通过阈值来寻找记录,与本专利技术基于时间串的方式差别很大。 专利技术专利“ 一种自动抽取论坛数据的方法”,该专利技术公开了一种从论坛帖子中抽取数据的方法,按照如下步骤:a根据论坛网页结构的特点,用网页结构聚类的方法,识别网页帖子页面;b根据网页帖子的簇的相似子树的数量变化,计算该簇内所有同路径下的相似子树的熵,来定位条目信息;c构建帖子页面可视字串的特征集,利用统计特征对特征集进行划分,然后利用先验知识对具体的可视字串代表的含义,并生成模板;d利用模板解析网页,完成最终的提取。但该专利技术通过计算网页帖子的簇的相似子树的数量变化来定位记录,并生成相应模板,与本专利技术基于时间串的方式差别很大。
技术实现思路
针对现有技术的不足,本专利技术提出一种基于时间串的论坛帖子自动抽取方法及系统。 本专利技术提出一种基于时间串的论坛页面信息自动抽取方法,包括: 步骤1,对所述论坛页面进行文件对象模型解析,并创建文件对象模型树,清除所述文件对象模型树中的无用标签和空标签,其中将所述无用标签和所述空标签对应的节点,标记为非关键节点,以完成清除; 步骤2,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息; 步骤3,初始化关键字列表和正则式列表,遍历所述文件对象模型树,获取包含网页地址的新节点,通过所述关键字列表或所述正则式列表,对所述网页地址进行关键字查找或正则式查找; 步骤4,若所述网页地址包含所述关键字列表中的关键字或所述正则式列表中的正则式,则获取所述新节点及其子节点包含的文本信息,所述文本信息为所述单楼页面的用户名信息。 所述的基于时间串的论坛页面信息自动抽取方法,所述步骤I和所述步骤2之间还包括: 通过正则式获取所述文件对象模型树的所述时间串。 所述的基于时间串的论坛页面信息自动抽取方法,还包括: 步骤5,对所述单独节点和所述新节点在所述文件对象模型树中的父节点进行标记; 步骤6,查找所述文件对象模型树中的标题节点,提取每个标题节点的标题文本信息; 步骤7,根据所述标题文本信息,查找所述单楼页面的主楼的标题文本信息,并查找所述主楼的所述标题文本信息在所述文件对象模型树中对应的主楼标题节点; 步骤8,若找到所述主楼标题节点,则遍历所述主楼标题节点及其子节点,否则遍历所述文件对象模型树,在除被标记的所述父节点和所述非关键节点之外的节点中,查找文本密度最大的节点,并获取文本信息作为所述单楼页面的正文信息。 所述的基于时间串的论坛页面信息自动抽取方法,所述步骤2还包括: 步骤21,若所述最大簇只包含两个节点,且所述两个节点没有公共父节点,则所述论坛页面为主楼与跟帖结构不同的两楼页面; 步骤22,获取所述两楼页面的每楼时间串对应节点的最低公共父节点,获取所述最低公共父节点的儿子节点,查找所述儿子节点中所述每楼时间串的祖先节点,并将所述祖先节点作为根节点,生成两颗文件对象模型树; 步骤23,根据所述两颗文件对象模型树,通过所述单楼页面的获取发帖时间信息、用户名信息、正文信息的方法,获取所述两楼页面每楼帖子的发帖时间信息、用户名信息、正文信息。 所述的基于时间串的论坛页面信息自动抽取方法本文档来自技高网
...
一种基于时间串的论坛页面信息自动抽取方法及系统

【技术保护点】
一种基于时间串的论坛页面信息自动抽取方法,其特征在于,包括: 步骤1,对所述论坛页面进行文件对象模型解析,并创建文件对象模型树,清除所述文件对象模型树中的无用标签和空标签,其中将所述无用标签和所述空标签对应的节点,标记为非关键节点,以完成清除; 步骤2,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息; 步骤3,初始化关键字列表和正则式列表,遍历所述文件对象模型树,获取包含网页地址的新节点,通过所述关键字列表或所述正则式列表,对所述网页地址进行关键字查找或正则式查找; 步骤4,若所述网页地址包含所述关键字列表中的关键字或所述正则式列表中的正则式,则获取所述新节点及其子节点包含的文本信息,所述文本信息为所述单楼页面的用户名信息。

【技术特征摘要】
1.一种基于时间串的论坛页面信息自动抽取方法,其特征在于,包括: 步骤1,对所述论坛页面进行文件对象模型解析,并创建文件对象模型树,清除所述文件对象模型树中的无用标签和空标签,其中将所述无用标签和所述空标签对应的节点,标记为非关键节点,以完成清除; 步骤2,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息; 步骤3,初始化关键字列表和正则式列表,遍历所述文件对象模型树,获取包含网页地址的新节点,通过所述关键字列表或所述正则式列表,对所述网页地址进行关键字查找或正则式查找; 步骤4,若所述网页地址包含所述关键字列表中的关键字或所述正则式列表中的正则式,则获取所述新节点及其子节点包含的文本信息,所述文本信息为所述单楼页面的用户名信息。2.如权利要求1所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,所述步骤I和所述步骤2之间还包括: 通过正则式获取所述文件对象模型树的所述时间串。3.如权利要求1所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,还包括: 步骤5,对所述单独节点和所述新节点在所述文件对象模型树中的父节点进行标记;步骤6,查找所述文件对象模型树中的标题节点,提取每个标题节点的标题文本信息;步骤7,根据所述标题文本信息,查找所述单楼页面的主楼的标题文本信息,并查找所述主楼的所述标题文本信息在所述文件对象模型树中对应的主楼标题节点; 步骤8,若找到所述主楼标题节点,则遍历所述主楼标题节点及其子节点,否则遍历所述文件对象模型树,在除被标记的所述父节点和所述非关键节点之外的节点中,查找文本密度最大的节点,并获取文本信息作为所述单楼页面的正文信息。4.如权利要求1或3所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,所述步骤2还包括: 步骤21,若所述最大簇只包含两个节点,且所述两个节点没有公共父节点,则所述论坛页面为主楼与跟帖结构不同的两楼页面; 步骤22,获取所述两楼页面的每楼时间串对应节点的最低公共父节点,获取所述最低公共父节点的儿子节点,查找所述儿子节点中所述每楼时间串的祖先节点,并将所述祖先节点作为根节点,生成两颗文件对象模型树; 步骤23,根据所述两颗文件对象模型树,通过所述单楼页面的获取发帖时间信息、用户名信息、正文信息的方法,获取所述两楼页面每楼帖子的发帖时间信息、用户名信息、正文信息。5.如权利要求1所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,所述步骤2还包括: 步骤24,获取所述最大簇包含的节点,并获取所述节点的公共父节点,查找所述公共父节点中出现频率最高的公共父节点作为统领节点,并记录所述统领节点对应时间串的节占.^ \\\ ? 步骤25,将所述公共父节点对应时间串的祖先节点进行标记,查找所述公共父节点的直接子节点,获取第一个被标记的祖先节点作为第一楼节点; 步骤26,获取与所述最大簇对应的时间串的正则式,根据所述正则式查找与所述第一楼节...

【专利技术属性】
技术研发人员:程学旗郗家贞郭岩刘悦俞晓明赵岭
申请(专利权)人:中国科学院计算技术研究所
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1