当前位置: 首页 > 专利查询>仲兆满专利>正文

一种基于搜索策略的多主题信息采集方法技术

技术编号:9751101 阅读:143 留言:0更新日期:2014-03-09 08:01
本发明专利技术是一种基于搜索策略的多主题信息采集方法,其步骤如下:(1)将主题规则集拆分成原子规则集;(2)判定原子规则集中原子规则的关系;(3)将原子规则集调度到内置搜索队列、通用搜索队列;(4)用和中的原子规则进行搜索采集。本发明专利技术方法针对多主题信息采集效率低下的问题,提出将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。

【技术实现步骤摘要】
一种基于搜索策略的多主题信息采集方法
本专利技术涉及一种信息采集技术,具体地说,涉及一种基于搜索策略的多主题信息采集方法。
技术介绍
主题信息采集是指有选择性地采集那些与预先定义好的主题相关信息的行为。主题信息采集面对的是特定的行业用户,采集的信息只限定于特定的主题。按照采集主题的范围和规模,可以分为广泛主题采集和具体主题采集。广泛主题指那些涵盖面较宽,并且和其他主题相比有较强的独立性的一类主题。广泛主题采集也称作领域信息采集。用户在采集这类主题时,往往并没有太具体的要求。这类信息采集往往采集到的信息数量较多,为了达到较高的召回率,在进行信息过滤的时候所设定的阈值较低、限制较宽。比如,“交通事故”、“自然灾害”、“地震”、“火灾”等都是广泛主题的例子。简而言之,广泛主题缺乏具体的要素约束,比如时间、地点、参与对象等约束要素,因而它获取的内容比较杂乱,采集内容与主题的平均相关度也较低。具体主题涵盖面较窄,因此意义也比较明确,采集信息的规模也较小。这类采集一般可直接服务于用户,是目前最主要的主题信息采集模式,为此,它在进行信息过滤的时候所设定的阈值较高、限制较严。比如,“2008年汶川地震”、“美国斯诺登事件”、“3.15动车事故”、“2008金融危机”、“2012台湾选举”等都是具体主题的例子。这类主题由于有明确的约束要素,使得采集到的信息与主题的平均相关度较高。申请号为200810223523.7的现有技术提出了一种面向主题的信息采集方法,该方法首先根据待采集链接队列中链接的顺序,从所述待采集链接队列中获得多个链接,采集并存储所述多个链接的页面内容,提取所述页面中的新链接,判定所述页面的主题相关性,提取所述页面的相关链接集合,将所述新链接添加到所述待采集链接队列中;而后,根据所述页面的相关链接集合和所述页面的主题相关性,计算所有链接的页面的主题相关性,并调整添加了所述新链接的待采集链接队列中的链接的顺序,重复上述两步直至采集结束。在2002年德国出版的会议论文集:2002年第六届欧洲数字图书馆研究和高级技术会议(Proceedingsof2002ConferenceoftheEuropeanConferenceonResearchandAdvancedTechnologyforDigitalLibraries),题目为:主题采集、隧道和数字图书馆(Focusedcrawls,tunneling,anddigitallibraries),作者是:D.Bergmark,C.Lagoze,andA.Sbityakov,该文提出了基于关键字的主题信息采集方法,没有考虑关键字之间的“与”、“或”关系。在2012年中国出版的期刊:情报学报,题目为:一种基于局部分析面向事件的查询扩展方法,作者是:仲兆满,朱平,李存华,管燕,刘宗田,该文针对事件检索问题,讨论了事件要素之间的约束关系,体现了关键字之间的“与”关系。现有技术没有考虑多主题信息采集过程中的重复采集信息的问题,效率低下。
技术实现思路
本专利技术所要解决的技术问题是针对现有技术中存在的多主题信息采集效率低下的问题,提出一种基于搜索策略的多主题信息采集方法,该方法将主题的规则拆分成原子规则,并利用原子规则间的相同、互换、包含三种关系达到减少在互联网上搜索采集次数的目的,提高了多主题信息采集的性能。本专利技术所要解决的技术问题是通过以下的技术方案来实现的。本专利技术是一种基于搜索策略的多主题信息采集方法,其特点是:其具体步骤如下:A、将主题规则集拆分成原子规则集;B、判定原子规则集中原子规则的关系;C、将原子规则集分配到内置搜索队列、通用搜索队列;D、用和中的原子规则进行搜索采集;步骤A中所述的将主题规则集拆分成原子规则集,其具体步骤如下:A1、依次从中取出每条主题规则,置空;A2、判段中是否包含“+”关系;如果包含,则转步骤A3;否则,,转步骤A5;A3、判断中是否存在“与”分配律。如果存在个(),循环执行次“与”分配律运算,得到;否则,=,转步骤A4;A4、依据“+”关系将切分成条原子规则,将条原子规则放入,转步骤A5;A5、得到原子规则集;步骤(C)中所述的将原子规则集分配到内置搜索队列、通用搜索队列,其具体步骤如下:C1、遍历中所有原子规则,没有关系的原子规则直接分别放入、;如果原子规则有关系,记有关系的原子规则集为,转步骤C2;否则,转步骤C6;C2、从取出一条原子规则,判断它与其他原子规则之间的关系;如果两条原子规则,选或分别放入、,转步骤C5;否则,转步骤C3;C3、如果,选或放入,选和放入,转步骤C5;否则转步骤C4;C4、如,选放入,选和放入,转步骤C5;C5、判断中的原子规则是否全部分配完毕,完成转步骤C6;否则,转步骤C2;C6、得到内置搜索队列和通用搜索队列。本专利技术的基于搜索策略的多主题信息采集方法与现有技术相比较,具有以下效果:该方法将多主题的采集规则转化为原子规则,通过判定原子规则间的三种关系,为内置搜索引擎和通用搜索引擎分配不同的原子规则,达到了压缩原子规则、减少网络访问次数的目的,提高了单位时间内采集的信息数目。附图说明图1是本专利技术的基于搜索策略的多主题信息采集方法的流程图;图2是图1中步骤101所述的将主题规则集拆分成原子规则集的流程图;图3是图1中步骤103所述的将原子规则集分配到内置搜索队列、通用搜索队列的流程图。具体实施方式下面结合附图和具体实施方式对本专利技术的实施过程作进一步详细的描述。参照图1,一种基于搜索策略的多主题信息采集方法,该方法包括如下步骤:步骤101、将主题规则集拆分成原子规则集,参照图2,其具体步骤如下:步骤201、依次从中取出每条主题规则,原子规则集置空。主题规则指使用关键词之间的“与”(*)、“或”(+)关系描述主题,比如,主题为“2008汶川地震”,则主题的规则可以为。原子规则指对主题的表示规则进行拆分,拆分后的关键词之间仅仅存在“与”的关系,比如主题规则,拆分后得到两条原子规则分别是和。步骤202、判段中是否包含“+”(或)关系。如果包含,转步骤203;否则,,转步骤207;步骤203、判断中是否存在“与”分配律。主题规则“与”分配律定义为:A*(B+C)=A*B+A*C,例如“地震*(汶川+四川)”=“地震*汶川+地震*四川”。如果有,转步骤204,;否则,转步骤205;步骤204、假设有个()存在“与”分配律,循环执行次“与”分配律运算,得到,转步骤206;步骤205、=,转步骤206;步骤206、依据“+”关系将切分成条原子规则,将条原子规则放入中,转步骤207;步骤207、得到原子规则集。步骤102、判定原子规则集中原子规则的关系,其具体如下:B1、两条原子规则,经过“*”关系切分后,如果关键词相同,且出现的顺序完全一致,则这两条规则存在相同关系,记作,转步骤B4;否则转步骤B2;B2、如果关键词完全相同,但出现的顺序不一致,则这两条规则存在互换关系,记作,转步骤B4;否则转步骤B3;B3、如果的关键字是关键字的真子集,则这两条规则存在包含关系,记作,转步骤B4;B4、原子规则的关系判定结束。步骤103、将原子规则集调度到内置搜索队列、通用搜索队列,参照图3,其具体步骤如下:步骤301、遍历中所本文档来自技高网
...
一种基于搜索策略的多主题信息采集方法

【技术保护点】
一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集???????????????????????????????????????????????拆分成原子规则集;B、判定原子规则集中原子规则的关系;C、将原子规则集分配到内置搜索队列、通用搜索队列;D、用和中的原子规则进行搜索采集;步骤A中所述的将主题规则集拆分成原子规则集,其具体步骤如下:A1、依次从中取出每条主题规则,置空;A2、判段中是否包含“+”关系;如果包含,则转步骤A3;否则,,转步骤A5;A3、判断中是否存在“与”分配律。2013106772576100001dest_path_image002.jpg,2013106772576100001dest_path_image004.jpg,754955dest_path_image004.jpg,2013106772576100001dest_path_image006.jpg,2013106772576100001dest_path_image008.jpg,2013106772576100001dest_path_image010.jpg,2013106772576100001dest_path_image012.jpg,dest_path_image014.jpg,dest_path_image016.jpg,dest_path_image018.jpg,422828dest_path_image008.jpg,dest_path_image020.jpg,dest_path_image022.jpg,dest_path_image024.jpg,dest_path_image026.jpg,dest_path_image028.jpg,dest_path_image030.jpg...

【技术特征摘要】
1.一种基于搜索策略的多主题信息采集方法,其特征在于:其具体步骤如下:A、将主题规则集R拆分成原子规则集Ra;B、判定原子规则集Ra中原子规则的关系;C、将原子规则集Ra分配到内置搜索队列QI、通用搜索队列Qc;D、用QI和Qc中的原子规则进行搜索采集;步骤A中所述的将主题规则集R拆分成原子规则集Ra,其具体步骤如下:A1、依次从R中取出每条主题规则Ri,Ra置空;A2、判段Ri中是否包含“+”关系;如果包含,则转步骤A3;否则,Ra={Ri},转步骤A5;A3、判断Ri中是否存在“与”分配律;如果存在m个(m>0),循环执行m次“与”分配律运算,得到Ri′;否则,Ri′=Ri,转步骤A4;A4、依据“+”关系将Ri′切分成n条原子规则,将n条原子规则放入Ra,转步骤A...

【专利技术属性】
技术研发人员:仲兆满李存华管燕
申请(专利权)人:仲兆满
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1