【技术实现步骤摘要】
一种针对中文语料拼写错误的智能纠错系统
[0001]本专利技术涉及自然语言文本纠错
,尤其涉及一种针对中文语料拼写错误的智能纠错系统。
技术介绍
[0002]文本纠错,是使用自然语言处理技术,检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,在早期,该领域主要基于专家规则(Pattern)进行错误识别和校准,但该方法费时费力,覆盖的范围和准确率都非常有限。近年来,随着智能客服、聊天机器人等语音识别技术的落地,基于数据驱动方法进一步提升文本纠错系统的综合性能,具有广阔的市场前景和应用价值。
[0003]作为一项重要而又具有挑战性的任务,一个工作良好的拼写错误纠正系统本质上需要人类水平的语言理解能力。当前解决该任务的主流方法是使用基于变换器的双向编码器表示技术(Bidirectional Encoder Representations from Transformers,BERT)从候选字符列表中选择一个字符,在句子的每个位置进行纠正(包括不纠正)。然而,由于BERT使用掩码预训练方式 ...
【技术保护点】
【技术特征摘要】
1.一种针对中文语料拼写错误的智能纠错系统,由文本特征提取模块、文本错误识别模块、文本错误校正模块三个模块构成。其中,所述文本特征提取模块基于预训练语言模型,获取语料的动态编码;所述文本错误识别模块:基于序列语言模型,预测文本中每个字符出现错误的概率;所述文本错误校正模块基于文本错误识别模块输出的错误概率进行掩码,并使用语言模型预测正确字符。2.根据权利要求1所述的针对中文语料拼写错误的智能纠错系统,其特征在于,所述文本特征提取模块通过以下步骤,将文本数据转为语料动态编码:1)尾部补零或截断,以固定每段语料的长度,将处理后的语料记为x,语料长度记作seq;2)构建字符级字典D,将所述字典大小记作n,将文本数据中的每个字符按其在D中的顺序做独热编码,将编码结果记作o∈R
seq,n
;3)将独热编码结果送入预训练好的语言模型中,得到包含语义信息的高层字符表示,记作e∈R
seq,d
。3.根据权利要求1所述的针对中文语料拼写错误的智能纠错系统,其特征在于,所述文本错误识别模块通过以下步骤,基于文本特征输出每个字符的出错概率:1)构建网络静态计算图;2)模型训练:将提取出的文本特征输入所述网络静态计算图中,根据网络输出结果和标签信息计算损失函数及其对各层可学习参数的导数,并根据计算得到的导数更新各层参数;3)实时评价和线上部署:每次参数更新后在验证集上解算模型的性能度量参数,得到最终的分类器并部署上线。4.根据权利要求3所述的针对中文语料拼写错误的智能纠错系统,其特征在于,针对所述构建的网络静态计算图,上标右箭头的变量代表网络从先到后遍历文本特征,左箭头的变量代表网络从后到先遍历文本特征。在所述序列模型中的每个时间步t,先结合输入信息e
<t>
和前一时间步的隐含层状态h
<t
‑
1>
,用tanh函数得到当前步记忆细胞状态更新值的候选值;其中,h
<t
‑
1>
是前一时间步的隐含层状态,e
<t>
是当前步的输入信息,W
C
是线性变换系数,b
C
是偏置项,上标箭头代表网络遍历方向。接着,定义门单元:更新门Γ
u
、遗忘门Γ
f
、输出门Γ
o
。这些门单元具有类似的定义方式,且都使用sigmoid函数做输出映射。。这些门单元具有类似的定义方式,且都使用sigmoid函数做输出映射。。这些门单元具有类似的定义方式,且都使用sigmoid函数做输出映射。其中W
u
,W
f
,W
o
分别是更新门、遗忘门、输出门的线性变换系数,b
u
,b
f
,b
o
分别是更新门、遗忘门、输出门的偏置项,上标箭头代表网络遍历方向。σ(
·
)表示sigmoid函数,它将门单
元的输出值控制0到1,在大多数情况下总是非常接近0或1。对于上一时间步的记忆细胞状态c
<t
‑
1>
,遗忘门Γ
f
决定是不是要遗忘它;对于当前步记忆细胞状态的更新值更新门Γ
u
决定是否要真的更新它;接着,将更新后的细胞状态c
<t>
通过输出门Γ
o
,可得到当前步隐含层状态a
<t>
。。将各字符双向特征拼接起来,得到最终的特征表示h
<t>
:...
【专利技术属性】
技术研发人员:刘兴高,王浩,陈圆圆,王文海,张志猛,张泽银,
申请(专利权)人:浙江大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。