一种事件信息采集中的事件规则约简方法技术

技术编号:33703239 阅读:23 留言:0更新日期:2022-06-06 08:19
本发明专利技术公开了一种事件信息采集中的事件规则约简方法,其步骤如下:(1)将用户定制的事件规则ER拆分为子事件规则集SER;(2)判定SER间是否满足相交关系,通过运算选取事件规则,得到约简的SER集LS。本发明专利技术方法针对事件信息采集效率低下的问题,为事件规则、子事件规则的要素组成提供了指导,分析了子事件规则间的相交关系,提高了事件信息采集的性能。提高了事件信息采集的性能。提高了事件信息采集的性能。

【技术实现步骤摘要】
一种事件信息采集中的事件规则约简方法


[0001]本专利技术涉及一种信息挖掘技术,具体地说,涉及一种事件信息采集中的事件规则约简方法。

技术介绍

[0002]由于现实世界中的很多事件在互联网上都有不同方式的反映,获取、持续跟踪互联网上的事件信息已经变得非常迫切。但媒体种类繁多、信息海量增长,从各类媒体中快速获取关注的事件信息是当前互联网信息处理系统迫切需求解决的问题。虽然用户使用通用搜索引擎可以在一定程度上获取相关的事件信息,比如百度、谷歌、必应等搜索引擎,但由于这类搜索引擎面对的是通用客户,搜集的是互联网上各类媒体的全面信息,影响了用户获取关注事件的实时性和精准性。如何提高信息采集的性能成为了当前研究的热点。
[0003]由于目前主流媒体都呈现了海量信息的特点,即信息量大、类型繁多、更新快、价值密度低。为了解决这一问题,主流的互联网媒体通常提供内置搜索功能查找特定信息,对具有内置搜索功能的主流媒体而言,现有的事件信息采集方法已不能在日益增多的海量信息中实现高效信息采集。
[0004]在2020年中国出版的会议论文集:第二届国际信息技术与计算机应用会议(Proceedings of the 2nd International Conference onInformation Technology and Computer Application),题目为:启发式搜索算法在爬虫领域的应用与研究(Application and researchof heuristic search algorithm in crawler field),作者是Liu H, Wang K,Liu Z,该文认为主题采集时的宽度优先策略没能充分利用页面的有效信息,致使采集耗时,提出了一种启发式的搜索算法,主要利用了页面的关键词、后缀名字、超链接、主题标签等信息。为了提高Web采集的速度但该方法的主题采集面太广,很难对一些特殊类型的采集目标提出更加有效的方法,比如事件信息采集、人物信息采集、产品信息采集、行业政策采集等,难以适应日益增长的海量网络信息采集。
[0005]在2021年美国出版的期刊:专家系统及其应用(Expert SystemsWith Applications),题目为:一个从大数据源集中抓取的智能系统 (An intelligent system for focused crawling from big datasources),作者是:Bifulco I,Cirillo S,Esposito C,GuadagniR,Polese G,该文在采集主题信息时,人工提供了一些主题关键词和URL种子。但该方法在采集主题信息时,沿用了主题采集的方法和技术,没有深入的分析事件要素的约束关系,难以实现事件规则的约简,提高信息采集效率。
[0006]在2019年美国出版的期刊:ACM计算调查(ACM ComputingSurveys),题目为:评估领域本体:澄清、分类和挑战(Evaluatingdomain ontologies:clarification,classification,andchallenges),作者是McDaniel M,Storey V C,该文在进行主题信息搜索时,使用了领域本体,包括术语、实体以及他们之间的关系。该方法考虑了事件要素的约束关系,但是缺乏对多个主题或事件之间的关系的考量,对如今具有内置搜索功能的主流媒体并不适用。
[0007]专利技术人在实施本专利技术的过程中,发现针对有内置搜索引擎的主流媒体的事件信息采集方法和技术,有以下三点不足:
[0008](1)主题采集面太广,很难对一些特殊类型的采集目标提出更加有效的方法;
[0009](2)大多沿用了主题采集的方法和技术,没有深入的分析事件要素的约束关系;
[0010](3)没有考虑多个主题或事件之间的关系。本专利技术深入分析了事件要素的约束关系,进而给出合理的采集事件描述方式和高效的采集方法,通过制定的约简事件采集规则,大大提高事件信息采集的效率,有很大的实用价值。

技术实现思路

[0011]鉴于以上所述现有技术存在的问题和不足,本专利技术要解决的技术问题是提供事件信息采集中的事件规则约简的方法,该方法更合理的利用了事件规则关系,更适合具有内置搜索功能的主流媒体实现高效的事件信息采集。
[0012]为了解决上述问题,本专利技术采用下述技术方案:一种事件信息采集中的事件规则约简方法,其具体步骤如下:
[0013]A、将用户定制的事件规则ER拆分为子事件规则集SER;
[0014]B、判定SER间是否满足相交关系,通过运算选取事件规则,得到约简的SER集LS。
[0015]本专利技术所述的事件信息采集中的事件规则约简的方法,步骤(A) 的优选具体步骤如下:
[0016]A1、判断事件规则ER中是否需要拆分,ER由事件要素之间的“∧”、“∨”关系组成,“∧”为“与”关系、“∨”为“或”关系;SER仅由事件要素之间的“∧”关系组成,当ER只有“∧”关系则不需要进行拆分,当ER包含了“∧”和“∨”关系时,ER遵循“与”分配律a
i
∧(o
i1
∨o
i2
)=(a
i
∧o
i1
)∨(a
i
∧o
i2
)
[0017]进行拆分,其中a、o分别表示规则的动作要素和对象要素;a 的下角数字i表示第几个动作要素,o的下角数字i1表示第i个动作要素的第1个动作要素,依此类推;
[0018]A2、计算ER中存在“与”分配律的个数Num;
[0019]A3、对ER执行Num次“与”分配律运算,得到ER
i
,依据“∨”关系拆分ER
i
,得到子事件规则集SER;ER
i
下角数字i表示第几个动作要素。
[0020]本专利技术所述的事件信息采集中的事件规则约简的方法,步骤(B) 的优选具体步骤如下:
[0021]B1、循环从SER中取出每条SER
i
(1≤i≤m);B2、判断SER
i
与后续的每条SER
j
(i+1≤j≤m)是否满足相交关系,即SER
i
和SER
j
的动作要素a满足a
i
=a
j
,且时间t、地点l、对象o三个要素满足t
i
、l
i
、o
i
与 t
j
、l
j
、o
j
相同个数u≥1;
[0022]B3、由SER
i
和SER
j
得到SER
i,j
=α
i
∧A(S
i,j
),其中S
i,j
是SER
i
、SER
j
中t、l、o相同要本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种事件信息采集中的事件规则约简方法,其特征在于,其步骤如下:A、将用户定制的事件规则ER拆分为子事件规则集SER;B、判定SER间是否满足相交关系,通过运算选取事件规则,得到约简的SER集LS。2.根据权利要求1所述的事件信息采集中的事件规则约简的方法,其特征在于:步骤(A)的具体步骤如下:A1、判断事件规则ER中是否需要拆分,ER由事件要素之间的“∧”、“∨”关系组成,“∧”为“与”关系、“∨”为“或”关系;SER仅由事件要素之间的“∧”关系组成,当ER只有“∧”关系则不需要进行拆分,当ER包含了“∧”和“∨”关系时,ER遵循“与”分配律a
i
∧(o
i1
∨o
i2
)=(a
i
∧o
i1
)∨(a
i
∧o
i2
)进行拆分,其中a、o分别表示规则的动作要素和对象要素;a的下角数字i表示第几个动作要素,o的下角数字i1表示第i个动作要素的第1个动作要素,依此类推;A2、计算ER中存在“与”分配律的个数Num;A3、对ER执行Num次“与”分配律运算,得到ER
i
,依据“∨”关系拆分ER
i
,得到子事件规则集SER;ER
i
下角数字i表示第几个动作要素。3.根据权利要求1所述的事件信息采集中的事件规则约简的方法,其特征在于:步骤(B)的具体步...

【专利技术属性】
技术研发人员:仲兆满李恒管燕李慧
申请(专利权)人:江苏海洋大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1