【技术实现步骤摘要】
本专利技术涉及计算机网络
,特别涉及在线讨论区信息检索技术。
技术介绍
随着互联网(the Internet)的飞速发展,它已经逐渐成为人们生活中一个重要的 部分。在Web2. 0时代,网络的使用者已经从以前的信息接受者转变成了信息的发布者,网 络的交互性越来越强,而在线讨论区就是目前互联网上最流行的交互性应用之一,网上各 种论坛、BBS等是在线讨论区的典型实例。通常,用户们可以在在线讨论区中畅所欲言,发表 自己的看法,因而讨论区中的信息从语义上看是处于一种各类内容混杂而无序的状态,给 信息处理和检索带来了很大的挑战一方面,传统的信息检索应用(例如传统的搜索引擎) 只能在帖子或线索的层次以基于关键词的方式上对信息进行处理,效果很差;另一方面,这 种复杂性对于讨论区管理者和相关部门的监管来说造成了巨大的困难。对讨论区信息进 行话题检测与跟踪之后,可以自动的对讨论内容进行分类规整,便于查找和编制索引,大大 方便了讨论区用户和管理人员;更进一步,在各个话题之间进一步进行挖掘的话,还可以分 析出每个话题的发展趋势以及话题之间的互动关系,进而实现对网络舆情趋势的估计 ...
【技术保护点】
一种在线讨论区话题检测与跟踪方法,包括步骤:步骤1:采用HTML解析模块对讨论区帖子进行预处理及线索重构;步骤2:利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;步骤3:对线索数据库中的线索的内容文本进行分析;步骤4:对线索数据库中的线索的用户行为进行分析;步骤5:将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。
【技术特征摘要】
一种在线讨论区话题检测与跟踪方法,包括步骤步骤1采用HTML解析模块对讨论区帖子进行预处理及线索重构;步骤2利用帖子和线索的信息度测量模块对新输入的帖子和相关线索进行信息度检查,并对线索特征向量进行更新;步骤3对线索数据库中的线索的内容文本进行分析;步骤4对线索数据库中的线索的用户行为进行分析;步骤5将线索的内容文本和用户行为的分析结果进行融合,判断线索的话题分类。2. 按照权利要求1所述的方法,其特征在于,讨论区帖子预处理及线索重构,包括步骤步骤11 :对新输入的讨论区帖子网页进行HTML解析;步骤12 :对HTML解析后的帖子分析其各项属性,包括发帖时间、标题、发帖人、内容和 线索结构信息;步骤13 :对帖子标题和内容进行词法分析,以分解成单词序列,删除停词; 步骤14 :根据帖子的线索结构信息重构出讨论区线索的集合。3. 按照权利要求1所述的方法,其特征在于,利用帖子和线索的信息度测量模块对新 输入的帖子和相关线索进行信息度检查,包括步骤步骤211 :对于经过预处理的新输入的每一个帖子,用帖子信息度测量器对其进行信 息度检查,输出为有效线索或无效线索;步骤212 :在帖子信息度测量的基础上,对于所有具有新帖子被输入的线索进行信息 度测量,输出为有效线索或无效线索;步骤213 :对于判定为无效的线索,因其当前不包含足够的有用信息,则将暂时忽略无 效的线索。4. 按照权利要求1所述的方法,其特征在于,对线索特征向量进行更新,包括步骤 步骤221 :对于所有具有新帖子被输入系统的线索,如果被信息度测量判定为有效,则使用...
【专利技术属性】
技术研发人员:胡卫明,朱明亮,吴偶,
申请(专利权)人:中国科学院自动化研究所,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。