【技术实现步骤摘要】
—种基于时间串的论坛页面信息自动抽取方法及系统
本专利技术涉及网络信息抽取方法,特别是一种基于时间串的论坛帖子自动抽取方法及系统。
技术介绍
互联网成为了许多人生活中不可或缺的一部分,而且内容越来越丰富,然而,随着内容的丰富、规模的扩大、用户数量的急剧增长,信息爆炸给人们也带来了相当大的困扰一人们无法快速、准确地获取自己想要得到的信息,这一方面是由于数据量大,找到想要的信息犹如大海捞针;另一方面,还因为各种网页噪音(广告等)、垃圾网页等一些用户不想看到的信息在泛滥,针对前者,目前比较好的解决方式是搜索引擎和个性化推荐引擎,搜索引擎可以让用户自定义的去查找用户自己想要的信息,而个性化推荐引擎试图自动寻找用户大概想要的内容,对用户进行推送。目前通常的搜索引擎、个性化推荐引擎采用的是对网页文本进行处理、分析(分词、建索引、排序等),而如果不对网页中的噪音信息进行处理,最终系统搜索或推荐出的内容质量也会大打折扣。 为了解决上面这些问题,网络信息抽取技术应需求而生。该技术的目标是将网页中的信息提取并表示为结构化的、计算机可以存储和理解的格式。信息抽取的质量直接影响系统的效果,因此,网络信息抽取研究具有重大的应用价值。 目前,按照是否需要模板,可以将信息抽取方法分为模板相关与模板无关的方法。模板相关的方法是指通过人工标注或者自动算法寻找到网页中关键信息的位置,并记录为模板,以便用来抽取结构相似的页面,这种方式在抽取时速度快,缺点是如果采用人工标注的话会耗费大量的人力,模板的维护代价高,可扩展性差;模板无关的方法是指对于每个待处理的页面,通过 ...
【技术保护点】
一种基于时间串的论坛页面信息自动抽取方法,其特征在于,包括: 步骤1,对所述论坛页面进行文件对象模型解析,并创建文件对象模型树,清除所述文件对象模型树中的无用标签和空标签,其中将所述无用标签和所述空标签对应的节点,标记为非关键节点,以完成清除; 步骤2,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息; 步骤3,初始化关键字列表和正则式列表,遍历所述文件对象模型树,获取包含网页地址的新节点,通过所述关键字列表或所述正则式列表,对所述网页地址进行关键字查找或正则式查找; 步骤4,若所述网页地址包含所述关键字列表中的关键字或所述正则式列表中的正则式,则获取所述新节点及其子节点包含的文本信息,所述文本信息为所述单楼页面的用户名信息。
【技术特征摘要】
1.一种基于时间串的论坛页面信息自动抽取方法,其特征在于,包括: 步骤1,对所述论坛页面进行文件对象模型解析,并创建文件对象模型树,清除所述文件对象模型树中的无用标签和空标签,其中将所述无用标签和所述空标签对应的节点,标记为非关键节点,以完成清除; 步骤2,根据所述时间串,对所述文件对象模型树进行聚类,生成多个聚类集合,遍历所述聚类集合,获取最大簇,若所述最大簇只包含一个单独节点,则所述论坛页面为单楼页面,根据所述单独节点的时间串,获取所述单楼页面的发帖时间信息; 步骤3,初始化关键字列表和正则式列表,遍历所述文件对象模型树,获取包含网页地址的新节点,通过所述关键字列表或所述正则式列表,对所述网页地址进行关键字查找或正则式查找; 步骤4,若所述网页地址包含所述关键字列表中的关键字或所述正则式列表中的正则式,则获取所述新节点及其子节点包含的文本信息,所述文本信息为所述单楼页面的用户名信息。2.如权利要求1所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,所述步骤I和所述步骤2之间还包括: 通过正则式获取所述文件对象模型树的所述时间串。3.如权利要求1所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,还包括: 步骤5,对所述单独节点和所述新节点在所述文件对象模型树中的父节点进行标记;步骤6,查找所述文件对象模型树中的标题节点,提取每个标题节点的标题文本信息;步骤7,根据所述标题文本信息,查找所述单楼页面的主楼的标题文本信息,并查找所述主楼的所述标题文本信息在所述文件对象模型树中对应的主楼标题节点; 步骤8,若找到所述主楼标题节点,则遍历所述主楼标题节点及其子节点,否则遍历所述文件对象模型树,在除被标记的所述父节点和所述非关键节点之外的节点中,查找文本密度最大的节点,并获取文本信息作为所述单楼页面的正文信息。4.如权利要求1或3所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,所述步骤2还包括: 步骤21,若所述最大簇只包含两个节点,且所述两个节点没有公共父节点,则所述论坛页面为主楼与跟帖结构不同的两楼页面; 步骤22,获取所述两楼页面的每楼时间串对应节点的最低公共父节点,获取所述最低公共父节点的儿子节点,查找所述儿子节点中所述每楼时间串的祖先节点,并将所述祖先节点作为根节点,生成两颗文件对象模型树; 步骤23,根据所述两颗文件对象模型树,通过所述单楼页面的获取发帖时间信息、用户名信息、正文信息的方法,获取所述两楼页面每楼帖子的发帖时间信息、用户名信息、正文信息。5.如权利要求1所述的基于时间串的论坛页面信息自动抽取方法,其特征在于,所述步骤2还包括: 步骤24,获取所述最大簇包含的节点,并获取所述节点的公共父节点,查找所述公共父节点中出现频率最高的公共父节点作为统领节点,并记录所述统领节点对应时间串的节占.^ \\\ ? 步骤25,将所述公共父节点对应时间串的祖先节点进行标记,查找所述公共父节点的直接子节点,获取第一个被标记的祖先节点作为第一楼节点; 步骤26,获取与所述最大簇对应的时间串的正则式,根据所述正则式查找与所述第一楼节...
【专利技术属性】
技术研发人员:程学旗,郗家贞,郭岩,刘悦,俞晓明,赵岭,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。