文本模糊匹配方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38221981 阅读:32 留言:0更新日期:2023-07-25 17:53
本申请提供了一种文本模糊匹配方法、装置、电子设备及可读存储介质,属于计算机技术领域。该方法包括:根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分;根据各初始匹配得分、插入代价、删除代价获取匹配模板的子序列与待匹配文本的子序列之间的最终匹配得分;从多个最终匹配得分中确定最高匹配得分,根据匹配模板的字符数量及最高匹配得分确定单字平均分数;若单字平均分数大于预设匹配阈值,则根据匹配模板确定匹配路径;根据匹配路径对待匹配文本进行编辑,得到修改文本;将修改文本与匹配模板进行匹配处理。这样,具有更高的前置系统误差包容性,降低前置系统误差。低前置系统误差。低前置系统误差。

【技术实现步骤摘要】
文本模糊匹配方法、装置、电子设备及可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本模糊匹配方法、装置、电子设备及可读存储介质。

技术介绍

[0002]现有的文本处理系统中,匹配依然是一个稳定且有效的识别方法,最为严格的匹配方法为精确匹配,其要求匹配的两者的字序及字形完全一致,且序列过程中不能有其他干扰字符掺杂。模糊匹配是基于某种假设或前提条件,允许在匹配过程中存在一定的误差,不一定需要完全一致。匹配操作大致可以根据待匹配的关系分为两种:一种是关键词匹配,其特点在于匹配对象之一是被包含于另一对象。另一种为全句匹配,往往以相似度为匹配程度的判断依据。当相似度为1,即两段文本完全相同时为精确匹配,其特点在于匹配关系具有反身性,与相似度判别不同的是,全句匹配中作为比对的文本其来源是可信和可控的。
[0003]现有的关键词匹配方法中,大多以字符串相似度为基础假设。例如字符串为“c%a%b%cda”,待匹配内容为“abc”,在精确匹配条件下是无法匹配到对应内容的。但当“%”被视为干扰字符,并且允许待匹配内容之间出现一定干扰时,可本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本模糊匹配方法,其特征在于,所述方法包括:根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分;根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分;从多个所述最终匹配得分中确定最高匹配得分,根据所述匹配模板的字符数量及所述最高匹配得分确定单字平均分数;若所述单字平均分数大于预设匹配阈值,则根据所述匹配模板确定匹配路径;根据所述匹配路径对所述待匹配文本进行编辑,得到修改文本;将所述修改文本与所述匹配模板进行匹配处理。2.根据权利要求1所述的方法,其特征在于,所述根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分,包括:若所述修改代价大于预设代价阈值,则将所述初始匹配得分确定为0;若所述修改代价小于等于预设代价阈值,则将所述修改代价作为所述初始匹配得分。3.根据权利要求1所述的方法,其特征在于,所述根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分,包括:遍历各所述初始匹配得分,确定当前初始匹配得分的第一相邻初始匹配得分、第二相邻初始匹配得分及第三相邻初始匹配得分;根据所述第一相邻初始匹配得分与当前初始匹配得分计算和值,计算所述第二相邻初始匹配得分与所述插入代价的第一差值、所述第三相邻初始匹配得分与所述删除代价的第二差值;将所述和值、所述第一差值及所述第二差值中的最大值确定为所述最终匹配得分。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一相邻初始匹配得分与当前初始匹配得分计算和值,包括:在所述第一相邻初始匹配得分不为0时,根据所述第一相邻初始匹配得分、当前初始匹配得分及预设补偿分数计算所述和值。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:若当前初始匹配得分无第一相邻初始...

【专利技术属性】
技术研发人员:李滨君庞建新
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1