基于前缀树的相似字符识别方法、设备、装置和存储介质制造方法及图纸

技术编号:25948843 阅读:12 留言:0更新日期:2020-10-17 03:40
本申请涉及数据分析技术领域,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质,包括获取预存于语料库中的语料,建立映射关系;根据映射关系,构建字音混合前缀树;获取待匹配的汉字字段,依次扫描滑动窗口内的汉字;采用字符串距离算法对扫描到的汉字与处于根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;将编辑距离小于预置编辑距离阈值的路径作为汉字的最优路径;依次获取待匹配汉字字段中各个汉字在最优路径上的节点拼音,确定待匹配的汉字字段对应的目标信息。此外,本申请还涉及区块链技术,拼音字符的数据信息可存储于区块链中。解决了前缀树技术无法对相似拼音匹配正确的汉字的问题。

【技术实现步骤摘要】
基于前缀树的相似字符识别方法、设备、装置和存储介质
本申请涉及数据分析
,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质。
技术介绍
信息是对现实世界事物存在方式或运动状态的反映。识别信息指利用计算机技术对信息进行处理、分析和理解,以识别各种不同类型的目标和对像。识别信息识别的信息一般可以分为图像信息识别、文本信息识别以及音频信息识别等。目前,在应用人工智能机器人对用户的文字信息或者语音信息进行识别的过程中,往往会因地方口音不同、拼音输入法通用词库匹配或对产品名称不熟悉等造成用户输入出现拼写错误,或者因为机器语音识别不准确造成的语音转化错误。针对上述错误,通常采用两种方法加以解决。一是建立大批错误词至正确词语的混淆词集,再进行匹配纠错。然而,该方法却难以应用落地,因汉字的同音字、谐音字多样,不同情况的排列组合将导致“组合爆炸”,字典庞大却纠错效率极低。二是将错误词语至产品名称的映射关系改进为拼音到产品名称的映射,再使用多模匹配算法进行匹配。这种词典创建方法虽然避免了方法一的“组合爆炸”问题,但却无法纠正具有拼音编辑距离的错误。
技术实现思路
基于此,针对目前前缀树技术无法对相似拼音匹配正确的汉字的技术问题,提供一种基于前缀树的相似字符识别方法、计算机设备、装置和存储介质。一种基于前缀树的相似字符识别方法,包括如下步骤:获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。在其中一个可能的实施例中,所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。在其中一个可能的实施例中,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。在其中一个可能的实施例中,所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离。在其中一个可能的实施例中,所述将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径,包括:获取编辑距离小于预置编辑距离阈值的路径,若所述路径为一条,则所述路径为所述最优路径;若所述路径不唯一,则应用动态规划算法对各所述路径进行递归,根据所述递归结果确定所述最优路径。在其中一个可能的实施例中,所述依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息之后,所述方法还包括:根据预设的名称规则对所述目标信息进行校验,判断所述目标信息是否符合所述名称规则;若所述目标信息符合所述名称规则,则建立所述待匹配的汉字字段与所述目标信息之间的映射关系;若所述目标信息不符合所述名称规则,则重新获取新的最优路径直至符合所述名称规则。一种基于前缀树的相似字符识别装置,包括如下模块:映射建立模块,用于获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;前缀树模块,用于根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;滑动窗模块,用于获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;路径搜索模块,用于采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;最优路径模块,用于将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;信息确定模块,用于依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。在其中一个可能的实施例中,所述映射建立模块还用于:遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述基于前缀树的相似字符识别方法的步骤。一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述基于前缀树的相似字符识别方法的步骤。与现有机制相比,本申请通过获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;获取待匹配的汉字字段,本文档来自技高网...

【技术保护点】
1.一种基于前缀树的相似字符识别方法,其特征在于,包括:/n获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;/n根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;/n获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;/n采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;/n将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;/n依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。/n

【技术特征摘要】
1.一种基于前缀树的相似字符识别方法,其特征在于,包括:
获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。


2.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。


3.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;
将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;
根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。


4.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:
获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;
当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;
当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离。


5.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述将编辑距离小于预置编辑距离阈值的...

【专利技术属性】
技术研发人员:刘东煜陈乐清曾增烽赖坤锋
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1