一种智能化文本纠错模型训练方法技术

技术编号:28942860 阅读:27 留言:0更新日期:2021-06-18 21:50
本发明专利技术公开了一种智能化文本纠错模型训练方法,包括以下步骤:S1、获取待纠错文本;S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;S5、候选筛选,得到最优的纠正方案。该种智能化文本纠错模型训练方法,通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程,有效提高了文本纠错的准确率。

【技术实现步骤摘要】
一种智能化文本纠错模型训练方法
本专利技术涉及智能文本分析
,具体为一种智能化文本纠错模型训练方法。
技术介绍
文本纠错技术是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块,其重要程度不言而喻。在日常生活中,我们经常会在微信、微博等社交工具或公众号文章中发现许多错别字,同时随着各自社交网站的发展,语音对话在社交软件中在不断普及,为了使得接收语音方在不方便接收语音时,也能及时接收到对方发送的内容,因此语音对话也开始出现转文字的功能。但是由于语音对话较为口语化,在转文字过程中,容易出现错误句子,最终会导致接收方不明确对方的意图。现有技术中为了实现文本纠错的功能,主要是通过利用基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本,利用评分函数或者分类器对多个候选文本进行排序,从多个候选文本中筛选出最合理的文本。然而在基于规则的模型或者基于统计的模型进行文本纠错过程中,文本纠错的准确率较低,文本纠错效果并不能满足现阶段用户对文本纠错功能的需求,因此我们对此做出改进,提出一种智能化文本纠错模型训练方法。
技术实现思路
为了解决上述技术问题,本专利技术提供了如下的技术方案:本专利技术一种智能化文本纠错模型训练方法,包括以下步骤:S1、获取待纠错文本;S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;S5、候选筛选,得到最优的纠正方案。作为本专利技术的一种优选技术方案,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。作为本专利技术的一种优选技术方案,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。作为本专利技术的一种优选技术方案,所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。作为本专利技术的一种优选技术方案,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。作为本专利技术的一种优选技术方案,S4中所述候选排序包括一级粗排序和二级精排序,所述一级粗排序采用逻辑回归模型算法,过滤部分明显错误的答案,所述二级精排序采用Xgboost模型对候选进行打分,分数超过设定阈值且是Top1的作为最终候选。作为本专利技术的一种优选技术方案,所述一级粗排序中逻辑回归抽取的特征主要包括频率比值、编辑距离、拼音jaccard距离、Ngram统计语言模型分数差值。作为本专利技术的一种优选技术方案,二级精排序中的候选特征分为局部特征和全局特征,所述局部特征主要包括分词变化、频次变化、形音变化、PMI互信息变化、Ngram语言模型分数变化以及一些其他的基础特征。本专利技术的有益效果是:该种智能化文本纠错模型训练方法,通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程,有效提高了文本纠错的准确率;通过错误检测中的拼音匹配检测、双向2gram检测、基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测,有效提高了错误检测的精度及效率,进而便于快速实现对文本进行高质量的纠错;通过利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布,有效缓解了邻近字也是错别字的情形,提高文本纠错的准确率。附图说明附图用来提供对本专利技术的进一步理解,并且构成说明书的一部分,与本专利技术的实施例一起用于解释本专利技术,并不构成对本专利技术的限制。在附图中:图1是本专利技术一种智能化文本纠错模型训练方法的流程图。具体实施方式以下结合附图对本专利技术的优选实施例进行说明,应当理解,此处所描述的优选实施例仅用于说明和解释本专利技术,并不用于限定本专利技术。实施例:如图1所示,本专利技术一种智能化文本纠错模型训练方法,包括以下步骤:S1、获取待纠错文本;S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;S5、候选筛选,得到最优的纠正方案。其中,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。其中,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。其中,基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是利用BiLstm,前向Lstm从左到右学习,后向Lstm从后到左学习,然后合并两个得到,得到先与输入的字向量做Attention得到,然后与拼接得到;再用与候选字向量做Attention,用Attention后的分数作为预测概率分布。其中,S3中所述混淆词典包括基于近音、近型、编辑距离的1、2gram混淆词典,将1gram词及词频和1gram近音词词典使用双数组字典树存储,而2gram词典采用CSR数据结构存储,2gram的近音混淆词可以从以上词典里恢复出来。其中,S4中所述候选排序包括一级粗排序和二级精排序,所述一级粗排序采本文档来自技高网...

【技术保护点】
1.一种智能化文本纠错模型训练方法,其特征在于,包括以下步骤:/nS1、获取待纠错文本;/nS2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;/nS3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;/nS4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;/nS5、候选筛选,得到最优的纠正方案。/n

【技术特征摘要】
1.一种智能化文本纠错模型训练方法,其特征在于,包括以下步骤:
S1、获取待纠错文本;
S2、错误检测,对待纠错文本进行错误检测,所述错误检测包括基于规则的错误检测和基于模型的错误检测;
S3、候选召回,对检测后的文本进行候选召回,通过语言模型和混淆词典来召回正确的候选词;
S4、候选排序,通过排序算法对召回的候选词进行打分排序,选择分数最高的一项进行替换;
S5、候选筛选,得到最优的纠正方案。


2.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测;所述拼音匹配检测通过建立拼音到实体的映射字典,完成错词到拼音到实体的纠错流程;所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布,通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。


3.根据权利要求1所述的一种智能化文本纠错模型训练方法,其特征在于,S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。


4.根据权利要求3所述的一种智能化文本纠错模型训练方法,其特征在于,所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布,若原字的概率不在topk里或与top1比值超过阈值,则认为有错;所述基于BiLstm改造的音字混合受限字表语言模型错误检测,是...

【专利技术属性】
技术研发人员:黄志春张定国伍宇文李韧康文静
申请(专利权)人:广州伟宏智能科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1