一种面向领域主题的Web新闻动态聚合方法技术

技术编号:12282141 阅读:102 留言:0更新日期:2015-11-05 22:24
本发明专利技术适用于网络信息处理领域,提供了一种面向领域主题的Web新闻动态聚合方法,所述方法包括下述步骤:面向用户预定义的领域站点列表,根据用户提供的主题,利用垂直搜索引擎和元搜索引擎获取搜索记录列表;对搜索记录列表进行去重和Web新闻网页识别得到新闻网页搜索记录列表;根据Web信息抽取方法,从新闻网页搜索记录列表获得结构化新闻列表;根据领域模型对结构化新闻列表进行排序,得到有序的结构化新闻列表并作为动态聚合结果返回给用户。本发明专利技术根据用户提供的领域和主题,实时获取多源相关的Web新闻集合,并根据Web新闻的受欢迎程度决定其排序的一种互动机制,其目的在于提供一种方便、高效的互联网信息的获取和共享方式。

【技术实现步骤摘要】

本专利技术涉及网络信息处理领域,具体是一种面向领域主题的Web新闻动态聚合方 法。
技术介绍
由于互联网传播新闻信息上有着与生倶来的优势,Web新闻日益成为人们获取信 息的主要方式。由于Web新闻信息量过于庞大,并具有变化快的特点,这使得获得领域主 题相关的Web新闻变得困难,互联网用户和相关应用迫切需要一种面向领域主题的Web新 闻动态聚合方法。领域是指意识形态或社会活动的范围。如:思想领域、学术领域、生活领 域、科学领域。主题是指用户在表达思想、说明问题或反映社会生活时,通过关键词的集合 所体现出来的基本思想和兴趣倾向。Web新闻是指互联网媒体所传播的新近发生事实的报 道。动态聚合是指由用户或应用提供领域主题,实时动态获取多源相关的信息集合,并根据 信息的受欢迎程度决定其排序的一种互动机制,其目的在于提供一种方便、高效的互联网 信息的获取和共享方式。目前,进行Web新闻聚合的主要方法和技术手段有搜索引擎技术和RSS(Really SimpleSyndication)技术。 搜索引擎能够从互联网上自动收集信息,并提供查询服务,为用户提供了一种检 索领域主题相关新闻的手段。然而存在以下不足:(l)Web信息覆盖率比较低。这主要是由 于网页收集机制功能不够强大,尚无法实现对所有网页的信息收集。(2)信息查准率不够 高。这主要与各搜索引擎所采取的索引机制、相关度评价模型以及相关度评价标准有关。 (3)难以满足面向领域主题的检索需求。垂直搜索可针对某一特定领域、某一特定人群或某 一特定需求提供的有一定价值的信息和相关服务。相对通用搜索引擎的信息量大、查询不 准确、深度不够的服务模式,垂直搜索引擎一般都提供了比较精准或者细化的搜索服务。其 特点就是"专、精、深",且具有行业特色,相比较通用搜索引擎的海量信息无序化,垂直搜索 引擎则更加专注、具体和深入。由于垂直搜索引擎本身的信息量小,它不可能取代通用搜索 引擎。但是,它是对通用搜索的很好的补充。元搜索引擎是一种Web上的信息检索的软件 系统,其通过将自身的查询请求转发给其它搜索引擎,再通过必要的中间处理过程,将各搜 索引擎返回的结果集按一定的方案进行融合并显示给用户。从理论上讲。元搜索引擎可以 解决独立搜索引擎本身几乎不可能解决的查全率低的问题,并且在个性化服务和灵活性等 方面都优于独立搜索引擎。但元搜索引擎在检索原理和机制上也未解决有效满足具体用户 的领域主题检索需求的问题。 另一类解决该难题的途径是以RSS技术为代表的"推"的技术。RSS是一种用于 共享新闻和其他Web内容的数据交换规范。用户通过专用的RSS终端(称为新闻聚合器, Aggregation)对感兴趣的频道进行订阅,从而实现有用信息的聚合。RSS在一定程度上为 用户的信息获取提供了便利,但仍存在一些不足。首先,这种基于RSS的新闻聚合,其实只 是简单地将订阅的新闻放在一起,是一种简易的信息聚合技术。其次,因为订阅的新闻可以 来自不同的网站,它具有一定的内容多样性,但这种多样性相对于海量Web新闻本身固有 的多样性而言,有明显的局限性。另外,RSS聚合技术面向用户兴趣有一定的针对性,但这 种针对性明显不足,用户需要某一特定内容的新闻时,需在聚合结果中手动查找,这仍是一 项费时费力的工作。 因此,Web新闻聚合,不能是简单地将新闻放在一起。为了更好地满足各类应用系 统和用户的需求,我们需要一种能聚合用户领域主题的Web新闻的方法和系统。
技术实现思路
本专利技术的目的是提供,依托垂直搜索 引擎、元搜索引擎、领域建模、信息抽取、内容排序技术,可以从海量Web新闻中为用户和应 用系统提供面向领域主题的Web新闻动态聚合服务,解决了搜索引擎技术在处理Web新闻 动态聚合问题时信息覆盖率低、信息查准率低、难以满足面向领域主题的检索需求的问题, 以及RSS技术在处理Web新闻动态聚合问题时信息多样性不足、信息针对性不足的问题。为了达到上述目的,本专利技术所采用的技术方案为:,其特征在于:包括以下步骤: (1)、用户或应用程序通过用户终端将主题信息发送给服务器; (2)、服务器接收用户或应用程序发送的主题信息,获取基于垂直搜索引擎模块得 到的搜索记录列表;(3)、服务器获取元搜索引擎的搜索结果页面;(4)、服务器获取搜索记录列表:根据搜索记录抽取方法,抽取元搜索引擎返回的 搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索 记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表;(5)、服务器获取去重的搜索记录列表:根据搜索记录去重方法,对搜索记录列表 进行去重,得到去重后的搜索记录列表;(6)、服务器获取新闻网页搜索记录列表:根据Web新闻网页识别方法,过滤搜索 记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表;(7)、服务器获取结构化新闻列表:根据结构化新闻抽取方法,对新闻网页搜索列 表进行处理,获得结构化新闻列表;(8)、服务器获取有序的结构化新闻列表:根据指定领域的Web新闻语料和领域建 模方法,建立领域模型,根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有 序结构化新闻列表;(9)、服务器将有序的结构化新闻列表作为面向领域主题的Web新闻动态聚合结 果发送到用户终端。所述的,其特征在于:所述步骤(1) 中,所述用户终端为手机或个人电脑,所述主题信息为关键词列表。 所述的,其特征在于:所述步骤(2) 中,垂直搜索引擎模块为:面向用户预定义的领域站点列表,对相关领域站点进行持续爬 取,根据用户提供的主题,面向爬取的页面进行检索;所述搜索记录包括URL、标题、摘要信 息。 所述的,其特征在于:所述步骤(3) 中,元搜索引擎为:根据元搜索引擎配置文件和用户提供的主题,生成多个通用搜索引擎的 请求URL,并获取多个通用搜索引擎生成的搜索结果页面;其中元搜索引擎配置文件包括 调用哪些搜索引擎及调用方法、检索时间限制、结果数量限制信息。 所述的,其特征在于:所述步骤(4) 中,搜索记录抽取方法为:通过配置搜索记录中URL、标题、摘要各要素定位所需的CSS选择 器,来完成对不同搜索结果页面的抽取。 所述的,其特征在于:所述步骤(5) 中,搜索记录去重方法为:依次取出搜索记录列表中的每条搜索记录,与搜索记录列表中余 下的记录依次进行比对;若当前比对的记录与取出记录的URL相同,贝lj从搜索记录列表中 移除当前记录;若当前比对的记录与取出记录标题的杰卡德距离超过预设定阈值,则从搜 索记录列表中移除当前记录;若当前比对的记录与取出记录摘要的杰卡德距离超过预设定 阈值,则从搜索记录列表中移除当前记录。 所述的,其特征在于:所述步骤(6) 中,Web新闻网页识别方法为:收集Web网页训练数据集,将页面数据集中的每个页面标注 上新闻或非新闻标签,根据网页特征提取方法和构建分类器方法,构建Web新闻网页识别 器;对未知类别的网页,根据网页特征提取方法和Web新闻网页识别器,识别出是新闻网页 或非新闻网页;其中网页特征提取方法能提取Web新闻网页的URL特征、结构特征和内容特 征;其中构建分类器方法能针对有标签列的二维表数据构建二类分类器。 所述本文档来自技高网
...

【技术保护点】
一种面向领域主题的Web新闻动态聚合方法,其特征在于:包括以下步骤:(1)、用户或应用程序通过用户终端将主题信息发送给服务器;(2)、服务器接收用户或应用程序发送的主题信息,获取基于垂直搜索引擎模块得到的搜索记录列表;(3)、服务器获取元搜索引擎的搜索结果页面;(4)、服务器获取搜索记录列表:根据搜索记录抽取方法,抽取元搜索引擎返回的搜索结果页面,抽取搜索结果页面中的每条搜索记录,合并垂直搜索引擎模块得到的搜索记录列表,得到由垂直搜索引擎和元搜索引擎获得的所有搜索记录,形成搜索记录列表;(5)、服务器获取去重的搜索记录列表:根据搜索记录去重方法,对搜索记录列表进行去重,得到去重后的搜索记录列表;(6)、服务器获取新闻网页搜索记录列表:根据Web新闻网页识别方法,过滤搜索记录列表中的非新闻网页搜索记录,得到新闻网页搜索记录列表;(7)、服务器获取结构化新闻列表:根据结构化新闻抽取方法,对新闻网页搜索列表进行处理,获得结构化新闻列表;(8)、服务器获取有序的结构化新闻列表:根据指定领域的Web新闻语料和领域建模方法,建立领域模型,根据基于领域模型的排序方法对结构化新闻列表进行排序,得到有序结构化新闻列表;(9)、服务器将有序的结构化新闻列表作为面向领域主题的Web新闻动态聚合结果发送到用户终端。...

【技术特征摘要】

【专利技术属性】
技术研发人员:吴共庆胡骏刘鹏程王钊胡东辉李磊胡学钢吴信东
申请(专利权)人:合肥工业大学
类型:发明
国别省市:安徽;34

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1