The invention discloses a rule matching method and a device thereof. Among them, the method includes: obtaining the current set of rules in the rule matching process which, according to the current rule set for a rule set the rules in the default matching number of period of time, are sorted on each rule set, and use in the process of rule matching rules; get to the execution rule matching operation corpus; set pair rule matching operation need to perform data matching rules using the current rules. The invention solves the technical problem of low matching efficiency caused by the sequential fixing of the rules in the relative technology.
【技术实现步骤摘要】
规则匹配方法及装置
本专利技术涉及自然语言处理领域,具体而言,涉及一种规则匹配方法及装置。
技术介绍
在结构化数据中,使用规则提取或者标记信息具有快速、简洁的优点,因此,目前使用规则的模块仍占据很大的市场比重。规则匹配通常是根据规则的排列顺序进行的。但是如果语料不同,不同规则需要匹配的次数就不同,因此匹配速度受限于规则的排列顺序。在相关技术中,规则匹配机制需要事先固定规则的排列顺序,再对于新来的句子采用字典匹配的模式,整个匹配过程需要遍历规则集中的所有规则。比如,假设N是规则集的大小,那么匹配时每个句子都需要遍历N次,其中,规则集的大小用规则的条数表示。同时,基于遍历的匹配模式,一些不常出现的规则也需要遍历一遍规则集。在规则集很小的情况下,这种匹配模式还能满足生产需求,但是在规则集很大的情况下,整个工程的时间复杂度将大大增加,以至于不能很好满足生产需求。具体地,在相关技术中,规则匹配过程如下:1,遍历整个规则集,对集合中任一规则都进行如下操作:遍历句子中的所有词语,对每个词都进行一次规则匹配操作;2,判断在该句子中是否有位置与当前规则匹配,如果返回结果为false,则表示不存在与当前规则匹配的信息,继续后续规则的匹配操作,如果返回结果为true,则表示存在与当前规则匹配的信息,记录匹配位置,并转向信息处理程序,终止本次匹配算法;3,获得匹配的信息。该技术方案缺点在于:使用枚举的方式遍历了规则集,并且对每个规则都需要遍历一遍词语列表,导致出现大量的无效匹配,增加了额外比较次数,降低了匹配效率。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本专利技术 ...
【技术保护点】
一种规则匹配方法,其特征在于,包括:在本次规则匹配过程中获取当前规则集,其中,所述当前规则集为根据上一规则集中各条规则在预设时间段内的匹配次数,对所述各条规则进行排序得到的,且在所述本次规则匹配过程中使用的规则的集合;获取需要执行规则匹配操作的语料;使用所述当前规则集对所述需要执行规则匹配操作的语料进行规则匹配。
【技术特征摘要】
1.一种规则匹配方法,其特征在于,包括:在本次规则匹配过程中获取当前规则集,其中,所述当前规则集为根据上一规则集中各条规则在预设时间段内的匹配次数,对所述各条规则进行排序得到的,且在所述本次规则匹配过程中使用的规则的集合;获取需要执行规则匹配操作的语料;使用所述当前规则集对所述需要执行规则匹配操作的语料进行规则匹配。2.根据权利要求1所述的方法,其特征在于,每条规则具有一个计数值,其中,所述方法还包括:在所述本次规则匹配过程中进行规则匹配时,当所述当前规则集中每条规则与所述语料中的对应位置匹配成功后,将该条规则的计数值进行增值处理;根据所述当前规则集中每条规则的计数值增值处理结果对所述当前规则集中的规则进行重新排序,得到下一规则集,其中,所述下一规则集为在下次规则匹配过程中使用的规则的集合。3.根据权利要求2所述的方法,其特征在于,对所述当前规则集中的规则进行重新排序之后且得到所述下一规则集之前,所述方法还包括:对重新排序后的各规则的计数值进行初始化处理,其中,根据重新排序的且计数值初始化后的各规则生成所述下一规则集。4.根据权利要求2所述的方法,其特征在于,将该条规则的计数值进行增值处理之后,所述方法还包括:判断从所述本次规则匹配过程开始到当前时刻之间的时长是否达到所述预设时间段的时长,其中,在判断结果为从所述本次规则匹配过程开始到所述当前时刻之间的时长达到所述预设时间段的时长的情况下,根据所述当前规则集中每条规则的计数值增值处理结果对所述当前规则集中的规则进行重新排序,得到所述下一规则集。5.根据权利要求2所述的方法,其特征在于,每条规则具有一个预定规则序号,根据所述当前规则集中每条规则的计数值增值处理结果对所述当前规则集中的规则进行重新排序,得到下一规则集包括:根据所述每条规则的预定规则序号确定所述当前规则集中每条规则在数据结构中的原有位置;根据所述当前规则集中每条规则的计数值增值处理结果对所述当前规则集中每条规则在数据结构中的原有位置进行调整,得到所述下一规则集。6.一种规则匹配装置,其特征在于,...
【专利技术属性】
技术研发人员:徐文斌,何鑫,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。