当前位置: 首页 > 专利查询>仲兆满专利>正文

一种基于搜索策略的多主题信息采集方法技术

技术编号:9751101 阅读:169 留言:0更新日期:2014-03-09 08:01
本发明专利技术是一种基于搜索策略的多主题信息采集方法,其步骤如下:(1)将主题规则集拆分成原子规则集;(2)判定原子规则集中原子规则的关系;(3)将原子规则集调度到内置搜索队列、通用搜索队列;(4)用和中的原子规则进行搜索采集。本发明专利技术方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。

【技术实现步骤摘要】
一种基于搜索策略的多主题信息采集方法
本专利技术涉及一种信息采集技术,具体地说,涉及一种基于搜索策略的多主题信息采集方法。
技术介绍
主题信息采集是指有选择性地采集那些与预先定义好的主题相关信息的行为。主题信息采集面对的是特定的行业用户,采集的信息只限定于特定的主题。按照采集主题的范围和规模,可以分为广泛主题采集和具体主题采集。广泛主题指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题采集也称作领域信息采集。用户在采集这类主题时,往往并没有太具体的要求。这类信息采集往往采集到的信息数量较多,为了达到较高的召回率,在进行信息过滤的时候所设定的阈值较低、限制较宽。比如,“交通事故”、“自然灾害”、“地震”、“火灾”等都是广泛主题的例子。简而言之,广泛主题缺乏具体的要素约束,比如时间、地点、参与对象等约束要素,因而它获取的内容比较杂乱,采集内容与主题的平均相关度也较低。具体主题涵盖面较窄,因此意义也比较明确,采集信息的规模也较小。这类采集一般可直接服务于用户,是目前最主要的主题信息采集模式,为此,它在进行信息过滤的时候所设定的阈值较高、限制较严。比如,“2008年汶川地本文档来自技高网...
一种基于搜索策略的多主题信息采集方法

【技术保护点】
一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集???????????????????????????????????????????????拆分成原子规则集;B、判定原子规则集中原子规则的关系;C、将原子规则集分配到内置搜索队列、通用搜索队列;D、用和中的原子规则进行搜索采集;步骤A中所述的将主题规则集拆分成原子规则集,其具体步骤如下:A1、依次从中取出每条主题规则,置空;A2、判段中是否包含“+”关系;如果包含,则转步骤A3;否则,,转步骤A5;A3、判断中是否存在“与”分配律。2013106772576100001dest_path_image002.j...

【技术特征摘要】
1.一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集R拆分成原子规则集Ra;B、判定原子规则集Ra中原子规则的关系;C、将原子规则集Ra分配到内置搜索队列QI、通用搜索队列Qc;D、用QI和Qc中的原子规则进行搜索采集;步骤A中所述的将主题规则集R拆分成原子规则集Ra,其具体步骤如下:A1、依次从R中取出每条主题规则Ri,Ra置空;A2、判段Ri中是否包含“+”关系;如果包含,则转步骤A3;否则,Ra={Ri},转步骤A5;A3、判断Ri中是否存在“与”分配律;如果存在m个(m>0),循环执行m次“与”分配律运算,得到Ri′;否则,Ri′=Ri,转步骤A4;A4、依据“+”关系将Ri′切分成n条原子规则,将n条原子规则放入Ra,转步骤A...

【专利技术属性】
技术研发人员:仲兆满李存华管燕
申请(专利权)人:仲兆满
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1