一种基于深度学习模型的文本纠错方法技术

技术编号：33554750 阅读：21 留言：0更新日期：2022-05-26 22:51

一种基于深度学习模型的文本纠错方法，BERT模型使用了Transformer模型的编码器部分，MacBERT用目标单词的相似单词,替代被mask的字符，减轻了预训练和微调阶段之间的差距。并且原始下一个句子预测任务贡献不大，其引入了句子顺序预测任务。基于上两个预训练任务的设置，MacBERT便有了强大的文本建模能力。MacBERT便有了强大的文本建模能力。MacBERT便有了强大的文本建模能力。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于深度学习模型的文本纠错方法

[0001]本专利技术涉及机器人对话及文本检索领域，具体涉及一种基于深度学习模型的文本纠错方法。

技术介绍

[0002]在检索或者对话场景下，错别字意味着搜索不到内容或者机器人检索不到相关对话，对于用户而言，就是需求无法满足，造成了很差的体验，因此在机器人对话或者检索领域，就很必要去纠错。

技术实现思路

[0003]本专利技术为了克服以上技术的不足，提供了一种使预训练模型自带的tokenzier对输入文本进行编码并输入到模型中，对模型输出的logits解码即得到改正之后的文本的方法。
[0004]本专利技术克服其技术问题所采用的技术方案是：
[0005]一种基于深度学习模型的文本纠错方法，包括如下步骤：
[0006]a)建立模型，该模型由检测网络、软屏蔽网络和纠正网络构成；
[0007]b)将文本转换为能够输入进模型的嵌入；
[0008]c)检测网络输出文本中第i个字符是错别字的概率p
i
；
[0009]d)软屏蔽网络软屏蔽嵌入本文第i个字符，将其定义为e
i
′
；
[0010]e)将e
i
′
输入纠正网络，纠正网络为基于MacBERT的序列多分类标记模型，检测网络的输出特征作为MacBERT模型12层Transformer模块的输入，将MacBERT模型最后一层的输出与MacBERT模型Input部分的Embedding特征进行残差连接，将...

【技术保护点】

【技术特征摘要】
1.一种基于深度学习模型的文本纠错方法，其特征在于，包括如下步骤：a)建立模型，该模型由检测网络、软屏蔽网络和纠正网络构成；b)将文本转换为能够输入进模型的嵌入；c)检测网络输出文本中第i个字符是错别字的概率p
i
；d)软屏蔽网络软屏蔽嵌入本文第i个字符，将其定义为e
i
′
；e)将e
i
′
输入纠正网络，纠正网络为基于MacBERT的序列多分类标记模型，检测网络的输出特征作为MacBERT模型12层Transformer模块的输入，将MacBERT模型最后一层的输出与MacBERT模型Input部分的Embedding特征进行残差连接，将残差连接结果作为每个字符最终的特征表示；f)模型通过端对端进行学习训练；g)将训练完成后的模型通过transformers库加载产生bin文件与txt文件，bin文件为训练完成保存的模型，txt文件为保存的词表；h)使用transformers库中的tokenizer对原始文本进行编码，将编码结果输入到训练好的模型中，输出结果为张量tensor，对张量tensor输出取每行的最大值位置下标，使用tokenizer.decode对位置下标进行解码，将解码后的文本作为纠错后的...

【专利技术属性】
技术研发人员：李晓瑜，冯落落，冯卫森，李沛，
申请(专利权)人：山东新一代信息产业技术研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人