文本模糊匹配方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:38221981 阅读:23 留言:0更新日期:2023-07-25 17:53
本申请提供了一种文本模糊匹配方法、装置、电子设备及可读存储介质,属于计算机技术领域。该方法包括:根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分;根据各初始匹配得分、插入代价、删除代价获取匹配模板的子序列与待匹配文本的子序列之间的最终匹配得分;从多个最终匹配得分中确定最高匹配得分,根据匹配模板的字符数量及最高匹配得分确定单字平均分数;若单字平均分数大于预设匹配阈值,则根据匹配模板确定匹配路径;根据匹配路径对待匹配文本进行编辑,得到修改文本;将修改文本与匹配模板进行匹配处理。这样,具有更高的前置系统误差包容性,降低前置系统误差。低前置系统误差。低前置系统误差。

【技术实现步骤摘要】
文本模糊匹配方法、装置、电子设备及可读存储介质


[0001]本申请涉及计算机
,尤其涉及一种文本模糊匹配方法、装置、电子设备及可读存储介质。

技术介绍

[0002]现有的文本处理系统中,匹配依然是一个稳定且有效的识别方法,最为严格的匹配方法为精确匹配,其要求匹配的两者的字序及字形完全一致,且序列过程中不能有其他干扰字符掺杂。模糊匹配是基于某种假设或前提条件,允许在匹配过程中存在一定的误差,不一定需要完全一致。匹配操作大致可以根据待匹配的关系分为两种:一种是关键词匹配,其特点在于匹配对象之一是被包含于另一对象。另一种为全句匹配,往往以相似度为匹配程度的判断依据。当相似度为1,即两段文本完全相同时为精确匹配,其特点在于匹配关系具有反身性,与相似度判别不同的是,全句匹配中作为比对的文本其来源是可信和可控的。
[0003]现有的关键词匹配方法中,大多以字符串相似度为基础假设。例如字符串为“c%a%b%cda”,待匹配内容为“abc”,在精确匹配条件下是无法匹配到对应内容的。但当“%”被视为干扰字符,并且允许待匹配内容之间出现一定干扰时,可以模糊匹配到对应结果。另外也有对待匹配内容缺失的模糊匹配方法,即当字符串为“Mik has gone.”时,待匹配内容为“Mike”,易知,“Mik”与“Mike”差别只有一个e,根据规则可进行模糊匹配。现有规则可以较好应对人为输入误差带来的多字少字误差。但在现有语音识别和光学字符识别技术带来的误差应对上效果不佳。
[0004]对于语音识别可能存在由于发音不标准导致的误识别,例如,英文中连读误识别的“that

s”与“thus”,中文的相似读音的“老虎”与“老夫”,或者,由于语音识别的词库更新不及时,如“新冠”被识别为“新官”等。在光学字符识别技术中由于近似字误识别的“兔”和“免”,当这些词作为待匹配的内容时,误识别的结果只通过字符串的相似程度难以判别。
[0005]现有的全句匹配技术往往依赖于字符交并集和深度学习模型,而在出现误识别字符时效果不佳,其原因是字符交并集中近似文字会被算作完全不同的个体,深度学习模型中近似文字的字义可能完全不同,进而造成信息提取不正确,影响最终效果。综上所述,现有的文本匹配技术中的前置系统误差比较大。

技术实现思路

[0006]为了解决上述技术问题,本申请提供了一种文本模糊匹配方法、装置、电子设备及可读存储介质。
[0007]第一方面,本申请提供了一种文本模糊匹配方法,所述方法包括:
[0008]根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分;
[0009]根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分;
[0010]从多个所述最终匹配得分中确定最高匹配得分,根据所述匹配模板的字符数量及所述最高匹配得分确定单字平均分数;
[0011]若所述单字平均分数大于预设匹配阈值,则根据所述匹配模板确定匹配路径;
[0012]根据所述匹配路径对所述待匹配文本进行编辑,得到修改文本;
[0013]将所述修改文本与所述匹配模板进行匹配处理。
[0014]在一实施方式中,所述根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分,包括:
[0015]若所述修改代价大于预设代价阈值,则将所述初始匹配得分确定为0;
[0016]若所述修改代价小于等于预设代价阈值,则将所述修改代价作为所述初始匹配得分。
[0017]在一实施方式中,所述根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分,包括:
[0018]遍历各所述初始匹配得分,确定当前初始匹配得分的第一相邻初始匹配得分、第二相邻初始匹配得分及第三相邻初始匹配得分;
[0019]根据所述第一相邻初始匹配得分与当前初始匹配得分计算和值,计算所述第二相邻初始匹配得分与所述插入代价的第一差值、所述第三相邻初始匹配得分与所述删除代价的第二差值;
[0020]将所述和值、所述第一差值及所述第二差值中的最大值确定为所述最终匹配得分。
[0021]在一实施方式中,所述根据所述第一相邻初始匹配得分与当前初始匹配得分计算和值,包括:
[0022]在所述第一相邻初始匹配得分不为0时,根据所述第一相邻初始匹配得分、当前初始匹配得分及预设补偿分数计算所述和值。
[0023]在一实施方式中,所述方法还包括:
[0024]若当前初始匹配得分无第一相邻初始匹配得分、第二相邻初始匹配得分及第三相邻初始匹配得分,则设置当前初始匹配得分的第一相邻初始匹配得分、第二相邻初始匹配得分及第三相邻初始匹配得分为0。
[0025]在一实施方式中,获取所述匹配模板的各字符与待匹配文本的各字符的修改代价,包括:
[0026]若误差来源为图像识别误差,则根据字形相关特征确定单字相似度,将所述单字相似度作为所述修改代价;
[0027]若所述误差来源为语音识别误差,则采用音素相似度作为所述修改代价。
[0028]在一实施方式中,所述根据所述匹配路径对所述待匹配文本进行编辑,得到修改文本,包括:
[0029]根据所述匹配路径确定修改操作及匹配字符串子串;
[0030]根据所述修改操作及所述匹配字符串子串对所述待匹配文本进行编辑,得到所述修改文本。
[0031]第二方面,本申请提供了一种文本模糊匹配装置,所述装置包括:
[0032]第一获取模块,用于根据匹配模板的各字符与待匹配文本的各字符的修改代价获
取对应的初始匹配得分;
[0033]第二获取模块,用于根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分;
[0034]第一确定模块,用于从多个所述最终匹配得分中确定最高匹配得分,根据所述匹配模板的字符数量及所述最高匹配得分确定单字平均分数;
[0035]第二确定模块,用于若所述单字平均分数大于预设匹配阈值,则根据所述匹配模板确定匹配路径;
[0036]编辑模块,用于根据所述匹配路径对所述待匹配文本进行编辑,得到修改文本;
[0037]匹配模块,用于将所述修改文本与所述匹配模板进行匹配处理。
[0038]第三方面,本申请提供了一种电子设备,包括存储器以及处理器,所述存储器用于存储计算机程序,所述计算机程序在所述处理器运行时执行第一方面提供的文本模糊匹配方法。
[0039]第四方面,本申请提供了一种计算机可读存储介质,其存储有计算机程序,所述计算机程序在处理器上运行时执行第一方面提供的文本模糊匹配方法。
[0040]上述本申请提供的文本模糊匹配方法装置、电子设备及可读存储介质,根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分;根据各所述初始匹配得分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本模糊匹配方法,其特征在于,所述方法包括:根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分;根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分;从多个所述最终匹配得分中确定最高匹配得分,根据所述匹配模板的字符数量及所述最高匹配得分确定单字平均分数;若所述单字平均分数大于预设匹配阈值,则根据所述匹配模板确定匹配路径;根据所述匹配路径对所述待匹配文本进行编辑,得到修改文本;将所述修改文本与所述匹配模板进行匹配处理。2.根据权利要求1所述的方法,其特征在于,所述根据匹配模板的各字符与待匹配文本的各字符的修改代价获取对应的初始匹配得分,包括:若所述修改代价大于预设代价阈值,则将所述初始匹配得分确定为0;若所述修改代价小于等于预设代价阈值,则将所述修改代价作为所述初始匹配得分。3.根据权利要求1所述的方法,其特征在于,所述根据各所述初始匹配得分、插入代价、删除代价获取所述匹配模板的子序列与所述待匹配文本的子序列之间的最终匹配得分,包括:遍历各所述初始匹配得分,确定当前初始匹配得分的第一相邻初始匹配得分、第二相邻初始匹配得分及第三相邻初始匹配得分;根据所述第一相邻初始匹配得分与当前初始匹配得分计算和值,计算所述第二相邻初始匹配得分与所述插入代价的第一差值、所述第三相邻初始匹配得分与所述删除代价的第二差值;将所述和值、所述第一差值及所述第二差值中的最大值确定为所述最终匹配得分。4.根据权利要求3所述的方法,其特征在于,所述根据所述第一相邻初始匹配得分与当前初始匹配得分计算和值,包括:在所述第一相邻初始匹配得分不为0时,根据所述第一相邻初始匹配得分、当前初始匹配得分及预设补偿分数计算所述和值。5.根据权利要求3所述的方法,其特征在于,所述方法还包括:若当前初始匹配得分无第一相邻初始...

【专利技术属性】
技术研发人员:李滨君庞建新
申请(专利权)人:深圳市优必选科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1