规则匹配方法及装置制造方法及图纸

技术编号:15762961 阅读:54 留言:0更新日期:2017-07-05 23:31
本申请公开了一种规则匹配方法及装置。该方法包括:获取预先设定的标记符号集合和目标文本,标记符号集合包括多个标记符号,多个标记符号是根据不同的业务需求对文本进行标记的符号;根据多个标记符号确定多个匹配规则模板;根据多个标记符号对目标文本进行转化处理,得到待匹配序列;以及使用多个匹配规则模板对待匹配序列进行匹配处理。通过本申请,解决了相关技术中规则匹配方法不能匹配文本隐含信息的问题。

Rule matching method and device

The present invention discloses a rule matching method and a device. The method includes: obtaining the mark symbol set and the target text set, mark symbol set includes a plurality of symbols, multiple symbols is to mark the text according to the different needs of business symbols; according to a plurality of mark symbols identifying multiple template matching rules; according to multiple marker symbol conversion processing of the target text, to obtain the matching sequence; and the use of multiple template matching rules to match sequence matching processing. Through this application, the problem that the rule matching method can not match the implicit information of text is solved.

【技术实现步骤摘要】
规则匹配方法及装置
本申请涉及自然语言处理领域,具体而言,涉及一种规则匹配方法及装置。
技术介绍
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,可以达到以下目的:1、给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2、可以通过正则表达式,从字符串中获取用户想要的特定部分。正是由于这种强大的特性,使得正则表达式在自然语言处理和文本处理领域具有很重要的地位。但随着对这一领域文本处理需求的日益增加,对于这样一类问题,正则表达式已不能很高效地满足需求。例如,欲识别某一类语法的句子,如“{某时某地},{某人}做了{某事}”。再例如,欲抽取一些实体及其关系,但实体词的可能性很大,或是无法一一枚举,如“{某人甲}是{某人乙}的丈夫”中抽取夫妻关系等。这一类需求的相同点是通过文本本身很少能够找到通用的匹配规则,{某人甲}的可能性很多,并且,中文文本中人名与其上下文相连没有断句,即不能匹配到文本的隐含信息。针对相关技术中规则匹配方法不能匹配文本隐含信息的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种规则匹配方法及装置,以解决相关技术中规则匹配方法不能匹配文本隐含信息的问题。为了实现上述目的,根据本申请的一个方面,提供了一种规则匹配方法。该方法包括:获取预先设定的标记符号集合和目标文本,标记符号集合包括多个标记符号,多个标记符号是根据不同的业务需求对文本进行标记的符号;根据多个标记符号确定多个匹配规则模板;根据多个标记符号对目标文本进行转化处理,得到待匹配序列;以及使用多个匹配规则模板对待匹配序列进行匹配处理。进一步地,使用多个匹配规则模板对待匹配序列进行匹配处理包括:在多个匹配规则模板中确定当前匹配规则模板,其中,当前匹配规则模板包括多个匹配项;使用当前匹配规则模板中的每个匹配项与待匹配序列中的字符逐一进行匹配;若待匹配序列中存在与当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则匹配结果为真;以及若待匹配序列中不存在与当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则将多个匹配规则模板中的下一匹配规则模板作为当前匹配规则模板与待匹配序列进行匹配,直到匹配结果为真、或者全部匹配规则模板均与待匹配序列进行匹配为止。进一步地,该方法还包括:确定匹配结果为真对应的匹配规则模板中的目标项,其中,目标项是匹配结果为真对应的匹配规则模板中标识的需要返回的结果项;从待匹配序列中提取目标项的值,得到目标内容;以及发送目标内容至目标地址。进一步地,根据多个标记符号对目标文本进行转化处理,得到待匹配序列包括:对目标文本进行分词处理,得到字符串序列,其中,字符串序列为具有标识能力的字符串单元组成的序列;根据多个标记符号确定字符串序列中的每个字符串单元对应的标记符号序列,得到标记符号序列集合;以及将标记符号序列集合作为待匹配序列。进一步地,该方法还包括:在得到标记符号序列集合之后,将字符串序列与标记符号序列集合进行合并处理,得到待匹配序列。为了实现上述目的,根据本申请的另一方面,提供了一种规则匹配装置。该装置包括:第一获取单元,用于获取预先设定的标记符号集合和目标文本,标记符号集合包括多个标记符号,多个标记符号是根据不同的业务需求对文本进行标记的符号;第一确定单元,用于根据多个标记符号确定多个匹配规则模板;转化单元,用于根据多个标记符号对目标文本进行转化处理,得到待匹配序列;以及匹配单元,用于使用多个匹配规则模板对待匹配序列进行匹配处理。进一步地,匹配单元包括:第一确定模块,用于在多个匹配规则模板中确定当前匹配规则模板,其中,当前匹配规则模板包括多个匹配项;第一匹配模块,用于使用当前匹配规则模板中的每个匹配项与待匹配序列中的字符逐一进行匹配;获取模块,用于若待匹配序列中存在与当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则匹配结果为真;以及第二匹配模块,用于若待匹配序列中不存在与当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则将多个匹配规则模板中的下一匹配规则模板作为当前匹配规则模板与待匹配序列进行匹配,直到匹配结果为真、或者全部匹配规则模板均与待匹配序列进行匹配为止。进一步地,该装置还包括:第二确定单元,用于确定匹配结果为真对应的匹配规则模板中的目标项,其中,目标项是匹配结果为真对应的匹配规则模板中标识的需要返回的结果项;第二获取单元,用于从待匹配序列中提取目标项的值,得到目标内容;以及发送单元,用于发送目标内容至目标地址。进一步地,转化单元包括:处理模块,用于对目标文本进行分词处理,得到字符串序列,其中,字符串序列为具有标识能力的字符串单元组成的序列;第二确定模块,用于根据多个标记符号确定字符串序列中的每个字符串单元对应的标记符号序列,得到标记符号序列集合;以及第三确定模块,用于将标记符号序列集合作为待匹配序列。进一步地,该装置还包括:处理单元,用于在得到标记符号序列集合之后,将字符串序列与标记符号序列集合进行合并处理,得到待匹配序列。通过本申请,采用以下步骤:获取预先设定的标记符号集合和目标文本,标记符号集合包括多个标记符号;根据多个标记符号确定多个匹配规则模板;根据多个标记符号对目标文本进行转化处理,得到待匹配序列;以及使用多个匹配规则模板对待匹配序列进行匹配处理,解决了相关技术中规则匹配方法不能匹配文本隐含信息的问题。通过对目标文本进行转化处理得到的待匹配序列背后隐藏的标记符号建立规则和进行匹配,进而达到了能够匹配出文本隐含信息的效果。附图说明构成本申请的一部分的附图用来提供对本申请的进一步理解,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的规则匹配方法的流程图;以及图2是根据本申请实施例的规则匹配装置的示意图。具体实施方式需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请的实施例,提供了一种规则匹配方法。图1是根据本申请实施例的规则匹配方法的流程图。如图1所示,该方法包括以下步骤:步骤S10本文档来自技高网
...
规则匹配方法及装置

【技术保护点】
一种规则匹配方法,其特征在于,包括:获取预先设定的标记符号集合和目标文本,所述标记符号集合包括多个标记符号,所述多个标记符号是根据不同的业务需求对文本进行标记的符号;根据所述多个标记符号确定多个匹配规则模板;根据所述多个标记符号对所述目标文本进行转化处理,得到待匹配序列;以及使用所述多个匹配规则模板对所述待匹配序列进行匹配处理。

【技术特征摘要】
1.一种规则匹配方法,其特征在于,包括:获取预先设定的标记符号集合和目标文本,所述标记符号集合包括多个标记符号,所述多个标记符号是根据不同的业务需求对文本进行标记的符号;根据所述多个标记符号确定多个匹配规则模板;根据所述多个标记符号对所述目标文本进行转化处理,得到待匹配序列;以及使用所述多个匹配规则模板对所述待匹配序列进行匹配处理。2.根据权利要求1所述的方法,其特征在于,使用所述多个匹配规则模板对所述待匹配序列进行匹配处理包括:在所述多个匹配规则模板中确定当前匹配规则模板,其中,所述当前匹配规则模板包括多个匹配项;使用所述当前匹配规则模板中的每个匹配项与所述待匹配序列中的字符逐一进行匹配;若所述待匹配序列中存在与所述当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则匹配结果为真;以及若所述待匹配序列中不存在与所述当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则将所述多个匹配规则模板中的下一匹配规则模板作为当前匹配规则模板与所述待匹配序列进行匹配,直到匹配结果为真、或者全部匹配规则模板均与所述待匹配序列进行匹配为止。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:确定匹配结果为真对应的匹配规则模板中的目标项,其中,所述目标项是所述匹配结果为真对应的匹配规则模板中标识的需要返回的结果项;从所述待匹配序列中提取所述目标项的值,得到目标内容;以及发送所述目标内容至目标地址。4.根据权利要求1所述的方法,其特征在于,根据所述多个标记符号对所述目标文本进行转化处理,得到待匹配序列包括:对所述目标文本进行分词处理,得到字符串序列,其中,所述字符串序列为具有标识能力的字符串单元组成的序列;根据所述多个标记符号确定所述字符串序列中的每个字符串单元对应的标记符号序列,得到标记符号序列集合;以及将所述标记符号序列集合作为所述待匹配序列。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在得到标记符号序列集合之后,将所述字符串序列与所述标记符号序列集合进行合并处理,得到所述待匹配序列。6.一种规则匹配装置,其特征在于,包括:第一获取单元,用于获取预先设定的标记符...

【专利技术属性】
技术研发人员:祁国晟何鑫
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1