基于汉字音形相似性的拼写纠错方法、装置以及电子设备制造方法及图纸

技术编号:28674795 阅读:39 留言:0更新日期:2021-06-02 02:51
本申请实施例提出了基于汉字音形相似性的拼写纠错方法、装置以及电子设备,包括根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。由于汉字转换成本计算只发生在音形编辑初始过程中,具体过程中不涉及层级间的计算,只需从预先加载的汉字与词典的映射字典取出即可;能够有效降低BK树中文纠错算法从树顶层往下不断对比带来的庞大计算量,提升纠错效率。

【技术实现步骤摘要】
基于汉字音形相似性的拼写纠错方法、装置以及电子设备
本申请涉及文本纠错领域,尤其涉及基于汉字音形相似性的拼写纠错方法、装置以及电子设备。
技术介绍
中文光学汉字识别(OCR)和自动语音识别(ASR)等场景中,因汉字音形相似可能引起识别错误。一般通过添加ASR、OCR等模型输出的后处理模块(中文拼写纠错)可解决大量错误。为了减少搜索遍历次数引入了BK(Burkhard-Keller)树结构。BK树基于正确词库之间的汉字串汉字转换成本构建树形结构,后续基于该树形结构快速搜索相近(汉字转换成本)汉字串。相对于遍历词库,BK树搜索可大大提升性能。但它还存在如下不足:(1)BK树结构主要支持天然分词场景(分词一般搜索场景下才易得,其他场景下几乎无法获取正确分词结果),使用范围有限;(2)BK树纠错需要实时计算两汉字串之间的汉字转换成本,在树深度较深的情况下,性能较差;(3)随着领域词典变大,BK树变深,将导致性能急剧下降;(4)BK树检索范围随着错误汉字数量阈值变大急剧变大,性能也将急剧下降。BK树相似检索虽然是一本文档来自技高网...

【技术保护点】
1.基于汉字音形相似性的拼写纠错方法,其特征在于,所述拼写纠错方法包括:/n根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;/n基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;/n接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。/n

【技术特征摘要】
1.基于汉字音形相似性的拼写纠错方法,其特征在于,所述拼写纠错方法包括:
根据标准汉字数据库构建包含汉字音形信息的样本汉字集合;
基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合;
接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字。


2.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述基于样本汉字集合中的汉字转换成本计算任意两个汉字之间对应汉字音形信息的相似度,根据得到的相似度结果构建对应样本汉字集合中每个汉字的相似汉字集合,包括:
定义将样本汉字集合中的汉字转换为汉字的最小编辑次数作为汉字转换成本;
结合相似度超参数构建如公式一所示的相似度计算公式,

公式一,
式中,为相似度超参数,表示两个汉字和之间的汉字转
换成本,表示计算相似度的运算符;
将得到的对应汉字相似度结果按相似度由高到低的顺序进行排序,选取排序后靠
前的汉字构建对应汉字的映射关系;
将得到的映射关系构建对应汉字的相似汉字集合。


3.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述方法还包括在计算两个汉字之间对应汉字音形信息的相似度之前,还包括:
对样本汉字集合中的汉字字形信息进行筛选。


4.根据权利要求1所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述接收待纠错文本,如果待纠错文本中的目标汉字在已构建的相似汉字集合中,则获取与目标汉字相关联的候选词,结合目标汉字与候选词的相似度与阈值的数值关系筛选得到对目标汉字进行纠错后的替换汉字,包括:
接收待纠错文本;
判断相似汉字集合中是否有存在以待纠错文本中的目标汉字起始的候选词;
如果存在,则获取音形信息的相似度高于预设相似度阈值的候选词对目标汉字进行替换。


5.根据权利要求4所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述获取音形信息高于预设相似度阈值的候选词对目标汉字进行替换,包括:
生成以目标汉字为开头的所有可能的领域词集合;
以目标汉字与领域词中第一个汉字的发音相似度或形状相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词保存至候选纠错集合;
以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换。


6.根据权利要求5所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
当筛选过程中出现相似度大于等于预设相似度阈值的情况,则更新符合上述要求候选词的得分;
将目标汉字逐个与候选词中的汉字进行比对处理;
如果目标汉字已经对应到候选词的最后一个汉字,将该候选词及相应得分保存至纠错汉字串集合中,同时将候选词从候选纠错集中删除。


7.根据权利要求5所述的基于汉字音形相似性的拼写纠错方法,其特征在于,所述以候选纠错集合中每个领域词内第一个汉字在候选词中的相似度高于预设相似度阈值的条件对领域词进行筛选,将符合要求的领域词对目标汉字进行替换,包括:
相似度小于设定阈值,从候选纠错集中删除。


8.基于汉字音形相似性的拼写纠错装置,其特征在于,所述拼写纠错装置包括:
汉字集合生成单元,用于根据标准汉字...

【专利技术属性】
技术研发人员:林金曙娄东方王炯亮陈哲陈春旭
申请(专利权)人:恒生电子股份有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1