文本纠错方法、装置及存储介质制造方法及图纸

技术编号：24251989 阅读：33 留言：0更新日期：2020-05-22 23:48

本发明专利技术提出一种文本纠错方法、装置及存储介质，该方法包括对待纠错文本进行分词，得到多个分词；采用纠错模型对各分词进行逐词纠错，从而得到目标文本，其中，纠错模型是预先采用强化学习方法训练得到的。通过本发明专利技术能够有效地检测出文本中涉及上下文的错误，有效提升文本纠错效率，提升文本纠错效果。

Text correction method, device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文本纠错方法、装置及存储介质
本专利技术涉及自然语言处理
，尤其涉及一种文本纠错方法、装置及存储介质。
技术介绍
文本纠错是自然语言处理中的常见任务，文本纠错涉及多种技术，并且相比于英文的文本纠错，由于中文的复杂性，中文文本的错误类型更多，纠错难度更大。相关技术中，文本纠错一般是先检测出文本中的错误，而后推荐合适的修正项，其中，在检测文本中的错误的过程中，通常是先把文本切分为词汇，再对比正确词库，查看切分得到的词汇中是否存在错误。这种方式下，纠错机制缺少对上下文语境的认识，难以检测到涉及上下文的错误，并且在推荐修正项过程中，难以从多个候选的修正项决策优先推荐项，因此，文本纠错效果不佳，纠错效率不高。
技术实现思路
本专利技术旨在至少在一定程度上解决相关技术中的技术问题之一。为此，本专利技术的目的在于提出一种文本纠错方法，能够有效地检测出文本中涉及上下文的错误，有效提升文本纠错效率，提升文本纠错效果。为达到上述目的，本专利技术第一方面实施例提出的文本纠错方法，包...

【技术保护点】
1.一种文本纠错方法，其特征在于，包括：/n对待纠错文本进行分词，得到多个分词；/n采用纠错模型对各所述分词进行逐词纠错，从而得到目标文本，其中，所述纠错模型是预先采用强化学习方法训练得到的。/n

【技术特征摘要】
1.一种文本纠错方法，其特征在于，包括：
对待纠错文本进行分词，得到多个分词；
采用纠错模型对各所述分词进行逐词纠错，从而得到目标文本，其中，所述纠错模型是预先采用强化学习方法训练得到的。

2.如权利要求1所述的文本纠错方法，其特征在于，所述采用纠错模型对各所述分词进行逐词纠错，包括：
确定当前分词；所述当前分词为所述多个分词中的一个；
根据所述纠错模型对所述当前分词进行纠错，得到与所述当前分词对应的正确分词；
根据所述正确分词，结合所述纠错模型对与所述当前分词相邻的下一分词进行纠错，直至扫描完毕所述多个分词。

3.如权利要求2所述的文本纠错方法，其特征在于，所述根据所述正确分词，结合所述纠错模型对与所述当前分词相邻的下一分词进行纠错，包括：
采用所述正确分词替换所述待纠错文本中的当前分词，得到新的待纠错文本；
结合所述纠错模型对所述新的待纠错文本中，与所述正确分词相邻的下一分词进行纠错，直至扫描完毕所述多个分词。

4.如权利要求2所述的文本纠错方法，其特征在于，所述根据所述纠错模型对所述当前分词进行纠错，得到与所述当前分词对应的正确分词，包括：
根据所述纠错模型确定与所述当前分词对应的目标纠错方式；所述纠错模型已学习得到各所述分词与目标纠错方式之间的映射关系；
根据所述目标纠错方式对所述当前分词进行纠错，从而得到所述正确分词。

5.如权利要求1所述的文本纠错方法，其特征在于，所述纠错模型是采用多个错误文本，各所述错误文本对应的正确文本，各所述错误文本的样本分词对应的多个纠错方式，对初始的纠错模型采用强化学习方法训练得到的。

6.如权利要求5所述的文本纠错方法，其特征在于，还包括：
在对初始的纠错模型采用强化学习方法训练时，对第一错误文本进行分词，得到多个样本分词；所述第一错误文本为所述多个错误文本中的一个；
采用当前样本分词，以及所述当前样本分词的当前纠错方式对所述初始的纠错模型进行迭代训练；所述当前纠错方式为所述多个纠错方式中的一个；
根据所述当前样本分词相邻的下一样本分词对所述当前样本分词进行更新，直至扫描完毕所述多个样本分词。

7.如权利要求6所述的文本纠错方法，其特征在于，所述采用当前样本分词，以及所述当前样本分词的当前纠错方式对所述初始的纠错模型进行迭代训练，包括：
基于设定概率从所述多个纠错方式中确定出所述当前纠错方式；
采用当前样本分词，以及所述当前样本分词的当前纠错方式对所述初始的纠错模型进行训练，直至所述初始的纠错模型，采用所述当前纠错方式对所述样本分词进行纠错后，由纠错后的样本分词组合得到的新的文本与所述第一错误文本对应的第一正确文本之间的奖励分值满足设定条件时，将所述当前纠错方式作为对应的样本分词的目标纠错方式。

8.一种文本纠错装置，其特征在于，包括：
第一分词模块，用于对待纠错文本进行分词，得到多个分词；
纠错模块，用于采用纠错模型对各所述分词进行逐词纠错，从而...

【专利技术属性】
技术研发人员：胡盼盼，赵茜，胡浩，杨超龙，周玥，严彦昌，张坚琳，高玮，
申请(专利权)人：广东博智林机器人有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人