The present invention discloses a rule matching method and a device. The method includes: obtaining the mark symbol set and the target text set, mark symbol set includes a plurality of symbols, multiple symbols is to mark the text according to the different needs of business symbols; according to a plurality of mark symbols identifying multiple template matching rules; according to multiple marker symbol conversion processing of the target text, to obtain the matching sequence; and the use of multiple template matching rules to match sequence matching processing. Through this application, the problem that the rule matching method can not match the implicit information of text is solved.
【技术实现步骤摘要】
规则匹配方法及装置
本申请涉及自然语言处理领域,具体而言,涉及一种规则匹配方法及装置。
技术介绍
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。给定一个正则表达式和另一个字符串,可以达到以下目的:1、给定的字符串是否符合正则表达式的过滤逻辑(称作“匹配”);2、可以通过正则表达式,从字符串中获取用户想要的特定部分。正是由于这种强大的特性,使得正则表达式在自然语言处理和文本处理领域具有很重要的地位。但随着对这一领域文本处理需求的日益增加,对于这样一类问题,正则表达式已不能很高效地满足需求。例如,欲识别某一类语法的句子,如“{某时某地},{某人}做了{某事}”。再例如,欲抽取一些实体及其关系,但实体词的可能性很大,或是无法一一枚举,如“{某人甲}是{某人乙}的丈夫”中抽取夫妻关系等。这一类需求的相同点是通过文本本身很少能够找到通用的匹配规则,{某人甲}的可能性很多,并且,中文文本中人名与其上下文相连没有断句,即不能匹配到文本的隐含信息。针对相关技术中规则匹配方法不能匹配文本隐含信息的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请的主要目的在于提供一种规则匹配方法及装置,以解决相关技术中规则匹配方法不能匹配文本隐含信息的问题。为了实现上述目的,根据本申请的一个方面,提供了一种规则匹配方法。该方法包括:获取预先设定的标记符号集合和目标文本,标记符号集合包括多个标记符号,多个标记符号是根据不同的业务需求对文本进行标记的符号;根据多个标记符号 ...
【技术保护点】
一种规则匹配方法,其特征在于,包括:获取预先设定的标记符号集合和目标文本,所述标记符号集合包括多个标记符号,所述多个标记符号是根据不同的业务需求对文本进行标记的符号;根据所述多个标记符号确定多个匹配规则模板;根据所述多个标记符号对所述目标文本进行转化处理,得到待匹配序列;以及使用所述多个匹配规则模板对所述待匹配序列进行匹配处理。
【技术特征摘要】
1.一种规则匹配方法,其特征在于,包括:获取预先设定的标记符号集合和目标文本,所述标记符号集合包括多个标记符号,所述多个标记符号是根据不同的业务需求对文本进行标记的符号;根据所述多个标记符号确定多个匹配规则模板;根据所述多个标记符号对所述目标文本进行转化处理,得到待匹配序列;以及使用所述多个匹配规则模板对所述待匹配序列进行匹配处理。2.根据权利要求1所述的方法,其特征在于,使用所述多个匹配规则模板对所述待匹配序列进行匹配处理包括:在所述多个匹配规则模板中确定当前匹配规则模板,其中,所述当前匹配规则模板包括多个匹配项;使用所述当前匹配规则模板中的每个匹配项与所述待匹配序列中的字符逐一进行匹配;若所述待匹配序列中存在与所述当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则匹配结果为真;以及若所述待匹配序列中不存在与所述当前匹配规则模板中的每个匹配项逐一相匹配的连续字符,则将所述多个匹配规则模板中的下一匹配规则模板作为当前匹配规则模板与所述待匹配序列进行匹配,直到匹配结果为真、或者全部匹配规则模板均与所述待匹配序列进行匹配为止。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:确定匹配结果为真对应的匹配规则模板中的目标项,其中,所述目标项是所述匹配结果为真对应的匹配规则模板中标识的需要返回的结果项;从所述待匹配序列中提取所述目标项的值,得到目标内容;以及发送所述目标内容至目标地址。4.根据权利要求1所述的方法,其特征在于,根据所述多个标记符号对所述目标文本进行转化处理,得到待匹配序列包括:对所述目标文本进行分词处理,得到字符串序列,其中,所述字符串序列为具有标识能力的字符串单元组成的序列;根据所述多个标记符号确定所述字符串序列中的每个字符串单元对应的标记符号序列,得到标记符号序列集合;以及将所述标记符号序列集合作为所述待匹配序列。5.根据权利要求4所述的方法,其特征在于,所述方法还包括:在得到标记符号序列集合之后,将所述字符串序列与所述标记符号序列集合进行合并处理,得到所述待匹配序列。6.一种规则匹配装置,其特征在于,包括:第一获取单元,用于获取预先设定的标记符...
【专利技术属性】
技术研发人员:祁国晟,何鑫,
申请(专利权)人:北京国双科技有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。