【技术实现步骤摘要】
一种基于二叉搜索树的单词匹配方法及装置
[0001]本专利技术涉及人工智能领域,更具体的,涉及一种基于二叉搜索树的单词匹配方法及装置。
技术介绍
[0002]数据匹配技术用于比较两个或多个记录,并计算他们属于同一实体的可能性。数据匹配应用于单词匹配时,用于判断两个单词究竟在多大程度上相似,其广泛应用于制裁名单筛查、搜索引擎关键词匹配等领域。
[0003]目前的单词匹配方法众多,但匹配速度不够高,精准度存在偏差,尤其是应用到海量数据匹配时,无法满足用户对匹配速度和准确性的要求。
技术实现思路
[0004]有鉴于此,本专利技术提供了一种基于二叉搜索树的单词匹配方法及装置,有效提高了单词匹配的速度和准确性。
[0005]为了实现上述专利技术目的,本专利技术提供的具体技术方案如下:
[0006]一种基于二叉搜索树的单词匹配方法,包括:
[0007]确定目标单词与候选单词;
[0008]构建所述目标单词或所述候选单词对应的二叉搜索树;
[0009]根据所述二叉搜索树查找所述目标单词与所述候选单词之间相同字母的数量;
[0010]依据所述目标单词与所述候选单词之间相同字母的数量,计算所述目标单词与所述候选单词之间的相似度;
[0011]根据所述目标单词与所述候选单词之间的相似度,确定所述候选单词是否为与所述目标单词相匹配的单词。
[0012]可选的,构建所述目标单词或所述候选单词对应的二叉搜索树,包括:
[0013]分别提取所述目标单 ...
【技术保护点】
【技术特征摘要】
1.一种基于二叉搜索树的单词匹配方法,其特征在于,包括:确定目标单词与候选单词;构建所述目标单词或所述候选单词对应的二叉搜索树;根据所述二叉搜索树查找所述目标单词与所述候选单词之间相同字母的数量;依据所述目标单词与所述候选单词之间相同字母的数量,计算所述目标单词与所述候选单词之间的相似度;根据所述目标单词与所述候选单词之间的相似度,确定所述候选单词是否为与所述目标单词相匹配的单词。2.根据权利要求1所述的方法,其特征在于,构建所述目标单词或所述候选单词对应的二叉搜索树,包括:分别提取所述目标单词A与所述候选单词B中的重复字母A
‑
和B
‑
,得到所述目标单词的剩余字符串A+与所述候选单词的剩余字符串B+;根据字母数值对照表,分别将A+和B+转化为数值序列,得到A+对应的A+数值序列以及B+对应的B+数值序列;构建A+数值序列与B+数值序列中最短数值序列对应的第一二叉搜索树。3.根据权利要求2所述的方法,其特征在于,根据所述二叉搜索树查找所述目标单词与所述候选单词之间相同字母的数量,包括:查询所述第一二叉搜索树中是否包含A+数值序列与B+数值序列中最长数值序列中的数值;若包含,确定所述第一二叉搜索树中包含的A+数值序列与B+数值序列中最长数值序列中的数值的数量Y1;判断A
‑
和B
‑
是否为空;若A
‑
和B
‑
中至少一个为空,将Y1确定为所述目标单词与所述候选单词之间相同字母的数量。4.根据权利要求3所述的方法,其特征在于,若A
‑
和B
‑
都不为空,所述方法还包括:分别提取A
‑
和B
‑
中的重复字母A
‑‑
和B
‑‑
,得到A
‑
的剩余字符串A
‑
+与B
‑
的剩余字符串B
‑
+;根据字母数值对照表,分别将A
‑
+和B
‑
+转化为数值序列,得到A
‑
+对应的A
‑
+数值序列以及B
‑
+对应的B
‑
+数值序列;构建A
‑
+数值序列与B
‑
+数值序列中最短数值序列对应的第二二叉搜索树;查询所述第二二叉搜索树中是否包含A
‑
+数值序列与B
‑
+数值序列中最长数值序列中的数值;若包含,确定所述第二二叉搜索树中包含的A
‑
+数值序列与B
‑
+数值序列中最长数值序列中的数值的数量Y2;判断A
‑‑
和B
‑‑
是否为空;若A
‑‑
和B
‑‑
中至少一个为空,将(Y1+Y2)确定为所述目标单词与所述候选单词之间相同字母的数量;若A
‑‑
和B
‑‑
都不为空,分别提取A
‑‑
和B
‑‑
中的重复字母A
‑‑‑
和B
‑‑‑
,直到提取到的重复字母中至少一个为空。
5.根据权利要求1所述的方法,其特征在于,依据所述目标单词与所述候选单词中相同字母的数量,计算所述目标单词与所述候选单词之间的相似度,包括:根据所述目标单词与所述候选单词的长度以及所述目标单词与所述候选单词中相同字母的数量,计算所述目标单词与所述候选单词之间的单词距离;确定所述目标单词与所述候选单词中的最小单词长度;计算所述单词距离与所述最小单词长度的比值,并将1与该比值的差值确定为所述目标单词与所述候选单词之间的相似度。6...
【专利技术属性】
技术研发人员:杨妍,
申请(专利权)人:中银金融科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。