一种智能化文本纠错模型训练方法技术

技术编号：28942860 阅读：27 留言：0更新日期：2021-06-18 21:50

本发明专利技术公开了一种智能化文本纠错模型训练方法，包括以下步骤：S1、获取待纠错文本；S2、错误检测，对待纠错文本进行错误检测，所述错误检测包括基于规则的错误检测和基于模型的错误检测；S3、候选召回，对检测后的文本进行候选召回，通过语言模型和混淆词典来召回正确的候选词；S4、候选排序，通过排序算法对召回的候选词进行打分排序，选择分数最高的一项进行替换；S5、候选筛选，得到最优的纠正方案。该种智能化文本纠错模型训练方法，通过待纠错文本进行错误检测、候选召回和候选排序三个主要流程，有效提高了文本纠错的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
一种智能化文本纠错模型训练方法
本专利技术涉及智能文本分析
，具体为一种智能化文本纠错模型训练方法。
技术介绍
文本纠错技术是实现中文语句自动检查、自动纠错的一项重要技术，其目的是提高语言正确性的同时减少人工校验成本。纠错模块作为自然语言处理最基础的模块，其重要程度不言而喻。在日常生活中，我们经常会在微信、微博等社交工具或公众号文章中发现许多错别字，同时随着各自社交网站的发展，语音对话在社交软件中在不断普及，为了使得接收语音方在不方便接收语音时，也能及时接收到对方发送的内容，因此语音对话也开始出现转文字的功能。但是由于语音对话较为口语化，在转文字过程中，容易出现错误句子，最终会导致接收方不明确对方的意图。现有技术中为了实现文本纠错的功能，主要是通过利用基于规则的模型或基于统计的模型生成针对待纠正文本的多个候选文本，利用评分函数或者分类器对多个候选文本进行排序，从多个候选文本中筛选出最合理的文本。然而在基于规则的模型或者基于统计的模型进行文本纠错过程中，文本纠错的准确率较低，文本纠错效果并不能满足现阶段用户对文本纠错功能的需求，因此我们对此做出改进，提出一种智能化文本纠错模型训练方法。
技术实现思路
为了解决上述技术问题，本专利技术提供了如下的技术方案：本专利技术一种智能化文本纠错模型训练方法，包括以下步骤：S1、获取待纠错文本；S2、错误检测，对待纠错文本进行错误检测，所述错误检测包括基于规则的错误检测和基于模型的错误检测；S3、候选召回，对检测后的文...

【技术保护点】
1.一种智能化文本纠错模型训练方法，其特征在于，包括以下步骤：/nS1、获取待纠错文本；/nS2、错误检测，对待纠错文本进行错误检测，所述错误检测包括基于规则的错误检测和基于模型的错误检测；/nS3、候选召回，对检测后的文本进行候选召回，通过语言模型和混淆词典来召回正确的候选词；/nS4、候选排序，通过排序算法对召回的候选词进行打分排序，选择分数最高的一项进行替换；/nS5、候选筛选，得到最优的纠正方案。/n

【技术特征摘要】
1.一种智能化文本纠错模型训练方法，其特征在于，包括以下步骤：
S1、获取待纠错文本；
S2、错误检测，对待纠错文本进行错误检测，所述错误检测包括基于规则的错误检测和基于模型的错误检测；
S3、候选召回，对检测后的文本进行候选召回，通过语言模型和混淆词典来召回正确的候选词；
S4、候选排序，通过排序算法对召回的候选词进行打分排序，选择分数最高的一项进行替换；
S5、候选筛选，得到最优的纠正方案。

2.根据权利要求1所述的一种智能化文本纠错模型训练方法，其特征在于，S2中所述基于规则的错误检测包括拼音匹配检测和双向2gram检测；所述拼音匹配检测通过建立拼音到实体的映射字典，完成错词到拼音到实体的纠错流程；所述双向2gram检测是将语料中所有2gram的联合概率分布拟定为正态分布，通过正确2gram片段的出现概率远大于错误出现的概率来完成错误检测。

3.根据权利要求1所述的一种智能化文本纠错模型训练方法，其特征在于，S2中所述基于模型的错误检测包括基于nn语言错误检测和基于BiLstm改造的音字混合受限字表语言模型错误检测。

4.根据权利要求3所述的一种智能化文本纠错模型训练方法，其特征在于，所述基于nn语言错误检测是通过完形填空的方式来预测候选字的概率分布，若原字的概率不在topk里或与top1比值超过阈值，则认为有错；所述基于BiLstm改造的音字混合受限字表语言模型错误检测，是...

【专利技术属性】
技术研发人员：黄志春，张定国，伍宇文，李韧，康文静，
申请(专利权)人：广州伟宏智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人