一种基于多模态预训练融合中文拼写纠正技术制造技术

技术编号：39036519 阅读：8 留言：0更新日期：2023-10-10 11:49

一种基于多模态预训练融合中文拼写纠正技术，它涉及一种中文拼写纠正技术。本发明专利技术为了解决现有中文拼写错误纠正技术的准确度和发现速度难以满足实际需要的问题。本发明专利技术的步骤为：对于输入的中文句子，从数据库中读取每个字的拼音和音调，并加载该字的黑体字体、小篆字体、该字繁体形式的黑体字体作为字音、字形信息；将句子及其对应字的拼音、字体分别映射为向量，再经过不同的编码器和BERT获取同维度的编码表示；对特征做非线性变换和加权和，获取进一步表示；将字的字音字形编码表示和文本编码表示输入门控层，对三种特征表示做加权融合，进而获得中文字的表示；将字的三个模态融合的表示输入BERT。本发明专利技术属于自然语言处理技术领域。技术领域。技术领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态预训练融合中文拼写纠正技术

[0001]本专利技术涉及一种中文拼写纠正技术，属于自然语言处理

技术介绍

[0002]随着互联网、移动设备等技术的普及，中文的使用范围越来越广泛，中文拼写纠正技术也越来越受到重视。中文拼写纠正技术的意义在于能够自动检测和纠正中文拼写错误，提高中文文本的准确性和可读性。该技术可以帮助人们在使用中文输入法时自动纠正错误的字词，减少输入错误的概率，提高输入效率；同时，在编辑、写作等场景下，也能够及时发现和纠正拼写错误，保证文本的质量。特别是对于在线搜索、社交网络、电子邮件、电子商务等各种应用场景，中文拼写纠正技术更是不可或缺的重要技术。然而目前的中文文本纠错技术仍存在提升空间，本专利技术提出的多模态预训练融合的中文拼写纠正技术着重解决以下问题：
[0003]一、根据领域内统计，中文文本中的拼写错误有76％是使用了与正确字发音相似的字造成的；有46％是使用了与正确字相似字形的字造成的。本专利技术引入中文字的文本信息、字形信息、字音信息，并将三种信息更合理地融合；
[0004]二、目前中文文本纠正技术大多使用大规模预训练语言模型来获取语义信息，如BERT、RoBERTa等。但是这些模型的预训练数据并非全部与文本纠正领域有关，预训练任务也与中文文本纠正存在差距。因此本专利技术分别为文本编码、字音编码和字形编码三个预训练过程设置了与中文文本纠正相关的预训练任务，领域内相关的预训练数据，适合建模不同特征的模型结构。

技术实现思路

[0005]本专利...

【技术保护点】

【技术特征摘要】
1.一种基于多模态预训练融合中文拼写纠正技术，其特征在于：所述一种基于多模态预训练融合中文拼写纠正技术是通过如下步骤实现的：步骤1、对于输入的中文句子，从数据库中读取每个字的拼音和音调，并加载该字的黑体字体、小篆字体、该字繁体形式的黑体字体作为字音、字形信息；步骤2、将句子及其对应字的拼音、字体分别映射为向量，再经过不同的编码器和BERT获取同维度的编码表示；步骤3、将字的字音字形编码表示和文本编码表示分别输入投影层，对特征做非线性变换和加权和，获取进一步表示；步骤4、将字的字音字形编码表示和文本编码表示输入门控层，对三种特征表示做加权融合，进而获得中文字的表示；步骤5、将字的三个模态融合的表示输入BERT，使用词表大小的线性层做分类器，对从BERT输出的表示进行分类，视最高得分的类别为系统最终的预测结果。2.根据权利要求1所述的一种基于多模态预训练融合中文拼写纠正技术，其特征在于：步骤2中采用12层BERT对中文字做编码，1层GRU网络和4层的BERT对中文字的拼音做编码，采用5层ResNet和4层的BERT对不同字体进行编码。具体过程包括以下步骤：步骤2.1对于输入的每个中文字t，获取其拼音音调序列和黑体、黑体、小篆字体图；步骤2.2将中文字根据BERT的词嵌入映射为768维的向量，将字的拼音序列根据可训练嵌入层映射为768维向量，将三种字体转为位图形式的向量并拼接，即通道数为3；步骤2.3使用12层BERT对字向量做建模，并取最后三层的输出向量做平均，形成字的语义表示，使用GRU的最后一个时间步的向量输入4层BERT对拼音向量进行编码，使用5层ResNet得到768维向量，并输入4层BERT进一步编码，最终三个编码表示的维度都为768。3.根据权利要求1所述的一种基于多模态预训练融合中文拼写纠正技术，其特征在于：步骤3中的投影层提供非线性变换，相当于对编码表示做self
‑
attention，三个表示的投影层共享参数，proj(rep)＝(...

【专利技术属性】
技术研发人员：赵铁军，朱聪慧，徐冰，刘梓航，曹海龙，杨沐昀，
申请(专利权)人：哈尔滨工业大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人