【技术实现步骤摘要】
基于前缀树的相似字符识别方法、设备、装置和存储介质
本申请涉及数据分析
,尤其涉及一种基于前缀树的相似字符识别方法、设备、装置和存储介质。
技术介绍
信息是对现实世界事物存在方式或运动状态的反映。识别信息指利用计算机技术对信息进行处理、分析和理解,以识别各种不同类型的目标和对像。识别信息识别的信息一般可以分为图像信息识别、文本信息识别以及音频信息识别等。目前,在应用人工智能机器人对用户的文字信息或者语音信息进行识别的过程中,往往会因地方口音不同、拼音输入法通用词库匹配或对产品名称不熟悉等造成用户输入出现拼写错误,或者因为机器语音识别不准确造成的语音转化错误。针对上述错误,通常采用两种方法加以解决。一是建立大批错误词至正确词语的混淆词集,再进行匹配纠错。然而,该方法却难以应用落地,因汉字的同音字、谐音字多样,不同情况的排列组合将导致“组合爆炸”,字典庞大却纠错效率极低。二是将错误词语至产品名称的映射关系改进为拼音到产品名称的映射,再使用多模匹配算法进行匹配。这种词典创建方法虽然避免了方法一的“组合爆炸”问题,但却无法纠正具有拼音编辑距离的错误。
技术实现思路
基于此,针对目前前缀树技术无法对相似拼音匹配正确的汉字的技术问题,提供一种基于前缀树的相似字符识别方法、计算机设备、装置和存储介质。一种基于前缀树的相似字符识别方法,包括如下步骤:获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;根据所述映射关系,将所述易错语 ...
【技术保护点】
1.一种基于前缀树的相似字符识别方法,其特征在于,包括:/n获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;/n根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;/n获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;/n采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;/n将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;/n依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。/n
【技术特征摘要】
1.一种基于前缀树的相似字符识别方法,其特征在于,包括:
获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系;
根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树;
获取待匹配的汉字字段,将所述待匹配的汉字字段中的首汉字作为滑动窗口的扫描起始位置、尾汉字作为滑动窗口的扫描终止位置,依次扫描所述滑动窗口内的汉字;
采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离;
将编辑距离小于预置编辑距离阈值的路径作为所述汉字的最优路径;
依次获取所述待匹配汉字字段中各个汉字在所述最优路径上的节点拼音,根据各所述节点拼音与语料库中汉字的对应关系,确定所述待匹配的汉字字段对应的目标信息。
2.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述获取预存于语料库中的语料,根据预设的修正策略将所述语料中的易错语料与其它语料建立映射关系,包括:
遍历所述语料库中的语料,提取带有预设标识的语料作为所述易错语料;
根据预设的修正策略,将所述易错语料与所述语料库中的其它语料进行匹配;
根据所述易错语料和各个所述其它语料之间的匹配度,建立所述映射关系。
3.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述根据所述映射关系,将所述易错语料对应的拼音转换为所述其它语料对应的拼音,并以所述其它语料的拼音为根节点、所述其它语料对应的汉字字符为叶子节点,构建字音混合前缀树之前,所述方法还包括:
获取所述易错语料的相邻语料,计算所述易错语料和所述相邻语料之间的关联度;
将所述关联度与预置关联度阈值进行比较,若所述关联度大于关联度阈值,则将所述易错语料和所述相邻语料打包成一易错语料组;
根据所述修正策略,建立所述易错语料组与所述其它语料之间的映射关系。
4.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述采用字符串距离算法对扫描到的汉字与处于所述根节点中的拼音进行编辑距离计算,得到不同路径的编辑距离,包括:
获取所述扫描到的汉字在所述前缀树中的节点位置,根据所述节点位置开始逐层向下搜索所述前缀树的节点,并计算当前节点与所述根节点之间的编辑距离;
当所述编辑距离达到指定阈值时,中止当前节点以及所述当前节点的子节点的搜索过程,并从与所述当前节点处于同级的兄弟节点的下一节点开始逐层进行搜索;
当所述前缀树中所有的节点均已遍历完毕时,汇总搜索路径中各个子路径的编辑距离得到所述路径的总编辑距离。
5.根据权利要求1所述的基于前缀树的相似字符识别方法,其特征在于,所述将编辑距离小于预置编辑距离阈值的...
【专利技术属性】
技术研发人员:刘东煜,陈乐清,曾增烽,赖坤锋,
申请(专利权)人:中国平安人寿保险股份有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。