文本匹配方法、装置、计算设备及计算机存储介质制造方法及图纸

技术编号:35544967 阅读:27 留言:0更新日期:2022-11-12 15:23
本发明专利技术公开了一种文本匹配方法、装置、计算设备及计算机存储介质,方法包括:匹配文本中的待审核关键词及其位置信息,查询包含待审核关键词的策略,将策略包含的逻辑运算符作为分支结点、关键词作为叶子结点,构建得到二叉树;针对叶子结点,若存在待审核关键词与其对应的关键词一致,则确定叶子结点的布尔值为真,在叶子结点保存一致的待审核关键词的位置信息;针对分支结点,根据逻辑运算符及两个子结点的布尔值进行运算得到该分支结点的布尔值,基于此确定保存在该分支结点的位置信息;若根结点的布尔值为真,则确定待审核文本命中关键词组合策略,并根据根结点保存的位置信息,输出待审核文本片段。该方式能够提高文本匹配的准确率和效率。匹配的准确率和效率。匹配的准确率和效率。

【技术实现步骤摘要】
文本匹配方法、装置、计算设备及计算机存储介质


[0001]本专利技术涉及文本匹配
,具体涉及一种文本匹配方法、装置、计算设备及计算机存储介质。

技术介绍

[0002]多关键词匹配就是快速判断出某一文本中是否包含关键词集合中的一个或多个关键词。目前有Aho

Corasick,AC

BM,Wu

Manber等优秀的多关键词匹配算法。
[0003]关键词组合策略是一种有效识别垃圾文本消息的方法。一条关键词组合策略通常是由多个关键词和“与”、“或”逻辑运算符组成,其定义了一种垃圾消息的词语特征。当文本消息与一条关键词组合策略匹配时,则可判定该文本消息为垃圾消息。举例来说,假设定义策略(A|B)&(C|D),则包含关键词A或B并且包含关键词C或D文本消息被判定为疑似垃圾消息。
[0004]现有关键词组合策略组合匹配方法一般把关键词组合策略拆分为只包含逻辑关系“与”的关键词组合。例如(A|B)&(C|D)可拆分为A&C、A&am本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本匹配方法,包括:根据策略关键词集合,匹配得到待审核文本中的待审核关键词及其位置信息,查询包含所述待审核关键词的关键词组合策略,所述关键词组合策略由逻辑运算符和关键词组成;将所述关键词组合策略包含的逻辑运算符作为分支结点,将所述关键词组合策略包含的关键词作为叶子结点,构建得到二叉树;遍历所述二叉树,针对于每一个叶子结点,判断是否存在审核关键词与其对应的关键词一致,若是,则确定该叶子结点的布尔值为真,在该叶子结点保存一致的待审核关键词的位置信息;针对于每一个分支结点,根据其对应的逻辑运算符及其两个子结点的布尔值进行布尔运算得到该分支结点的布尔值,根据该分支结点对应的逻辑运算符和布尔值确定保存在该分支结点的位置信息;其中,保存在该分支结点的位置信息为其两个子结点所保存的位置信息或者其两个子结点所保存的位置信息组合的小于预设区间阈值的覆盖区间;若根结点的布尔值为真,则确定所述待审核文本命中所述关键词组合策略,并根据根结点保存的位置信息,输出待审核文本片段。2.根据权利要求1所述的方法,其中,所述位置信息为上下文区间的形式;待审核关键词的上下文区间的开始和结束相等,均为待审核关键词的首字符在待审核文本中的位置序号。3.根据权利要求2所述的方法,其中,所述根据该分支结点对应的逻辑运算符和布尔值确定保存在该分支结点的位置信息进一步包括:若该分支结点对应的逻辑运算符为或运算符且布尔值为真,则将两个子结点的上下文区间全部保存在该分支结点;若该分支结点对应的逻辑运算符为与运算符且布尔值为真,则将两个子结点的上下文区间组合成的且小于预设区间阈值的覆盖区间保存在该分支结点;若该分支结点的布尔值为假,则将该分支结点的位置信息保存为空。4.根据权利要求3所述的方法,其中,所述方法进一步包括:若该分支结点对应的逻辑运算符为与运算符且布尔值为真,且其两个子结点的上下文区间组合成的各个覆盖区间均不小于预设区间阈值,则将该分支结点的布尔值修改为假。5.根据权利要求1所述的方法,其中,所述方法进一步包括:根据关键词组合策略对应的二叉树,确定所述关键词组合策略的最小关键词匹配量;判断所述待审核文本中包含的关键词的数量是否小于所述最小关键词匹配量;若是,则过滤该关键词组合策略。6.根据权利要求5所述的方法,其中,所述根据关键词组合策略对应的二叉树,确定所述关键词组合策略的最小关...

【专利技术属性】
技术研发人员:叶剑飞戴晶杜雪涛杜刚邵妍王红雨叶艳朱艳云周宇飞张晨
申请(专利权)人:中国移动通信集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1