一种无监督语法纠错方法技术

技术编号:39495013 阅读:12 留言:0更新日期:2023-11-24 11:21
本发明专利技术公开了一种无监督语法纠错方法

【技术实现步骤摘要】
一种无监督语法纠错方法、装置、终端及介质


[0001]本专利技术涉及自然语言处理
,尤其涉及一种无监督语法纠错方法

装置

终端及介质


技术介绍

[0002]语法错误纠正
(GEC)
是自然语言处理技术的一项挑战

人们对于通用语言做了许多关于
GEC
的尝试,但对于低资源语言,由于缺乏大量的标注语料,相关的研究工作相对较少

同时,低资源语言缺乏如
Lang

81
等语言学习平台的资源,从而对构建
seq2seq GEC
语料库带来了重大挑战

为了解决这个问题,现有研究探索了为低资源
GEC
任务建模的替代方法

一些研究人员试图将该任务描述为一个多类分类问题

为了针对低资源语言构建可靠的
GEC
系统,仍然需要更加多样化且具有代表性的训练数据

为了解决缺乏可观的注释语料库的问题,大部分低资源语言的
GEC
是通过无监督系统解决的

[0003]近年来,面向基于困惑度融合的无监督语法纠错的研究主要有三种:一是无监督
GEC
的数据合成方法,是通过无监督的方法在无标注语料库上进行数据合成,以生成大量的伪标注文本;基于
transformer

seq2seqr/>模型能够使用合成数据进行预训练,以实现建立在真实错误标注数据上的强大基线,这使得在真实错误标注数据匮乏的情况下创建一个可行的
GEC
系统成为可能;二是无监督
GEC
的语言模型评分,利用
LM
评分的
GEC
方法,如假设低概率句子比高概率句子更有可能包含语法错误,而
GEC
系统根据语言模型概率决定如何将前者转换为后者;校正候选转换器可以由混淆集

基于分类的
GEC
模型或有限状态传感器生成;三是基于预训练模型的句子评分,是通过利用预训练模型进行句子评分方法

因此,目前开发
GEC
的无监督方法侧重于使用无监督技术和语言模型评分方法生成训练数据,尚未建立低资源语言的
seq2seq
语料库;学者们集中精力将语言模型评分方法应用于低资源语言的
GEC
任务,然而,对于语言模型的评分方法,过去大多数无监督的
GEC
研究主要采用传统的语言模型或基于神经的方法,预训练的语言模型尚未在无监督
GEC
领域的进行运用


技术实现思路

[0004]本专利技术提供一种无监督语法纠错方法

装置

终端及介质,通过构建低资源语言评估语料库以及基于
BERT
的无监督语法纠错框架能够不依赖于任何带注释的标注语料,以及评估句子的准确性

[0005]为了实现上述目的,第一方面,本专利技术实施例提供了一种无监督语法纠错方法,包括:
[0006]对样本语料库中与词性标签相关的词汇进行排序,排除语法要求不相容的词性,得到低资源语言语法错误相对应的词性混淆集,利用低资源语言语法规则对所述词性混淆集进行审查,以构建低资源语言评估语料库;
[0007]根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流;
[0008]依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度;
[0009]基于所述困惑度得分,识别与纠正所述目标句子中的语法错误,生成正确的目标句子,以更新所述低资源语言评估语料库

[0010]作为上述方案的改进,所述根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流,具体包括:
[0011]根据所述词性混淆集,判断所述低资源语言评估语料库的目标句子中特定词语是否为所述词性混淆集的词语;
[0012]若是,则将对应的词性标记分配给所述特定词语,将所述词性标记对应的词性混淆集的每一个混淆词语代替所述特定词语生成所述目标句子的派生句子,得到所述特定词语的派生句子数据流;
[0013]其中,所述词性标记与所述词性混淆集一一对应

[0014]作为上述方案的改进,所述依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度,具体包括:
[0015]通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型,根据所述派生句子中剩余词语的概率分布计算得到所述派生句子的一阶困惑度;
[0016]通过对所述派生句子中两个连续的词语进行掩码操作,采用所述预先训练好的语言模型,评估所述掩码操作后的派生句子的困惑度作为所述派生句子的二阶困惑度;
[0017]根据权重比例融合所述一阶困惑度和二阶困惑度,得到所述派生句子的困惑度得分;
[0018]其中,所述融合困惑度包括所述一阶困惑度和二阶困惑度

[0019]作为上述方案的改进,所述通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型,根据所述派生句子中剩余词语的概率分布计算得到所述派生句子的一阶困惑度,具体包括:
[0020]通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型通过伪困惑度计算所述派生句子中剩余词语的条件对数概率并进行求和得到所述派生句子的一阶困惑度;
[0021]其中,所述一阶困惑度的数学表达式为:
[0022][0023]式中,
PLL
first
(X)
为句子
X
的一阶困惑度;
|X|
为所述句子
X
的词语数量,
|X|

n

P
MLM
(w
t
|X
nt
)
为所述句子
X
中除了掩码词条
w
t
以外的剩余词语的条件对数概率;
w
t
为所述句子
X
中第
t
个词语,代表掩码词条;
t
为所述句子
X
的掩码词条
w
t
对应的下标;
X
nt
为所述句子
X
中除了掩码词条
w
t
以外的剩余词语;其中,所述伪困惑度为所本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.
一种无监督语法纠错方法,其特征在于,包括:对样本语料库中与词性标签相关的词汇进行排序,排除语法要求不相容的词性,得到低资源语言语法错误相对应的词性混淆集,利用低资源语言语法规则对所述词性混淆集进行审查,以构建低资源语言评估语料库;根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流;依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度;基于所述困惑度得分,识别与纠正所述目标句子中的语法错误,生成正确的目标句子,以更新所述低资源语言评估语料库
。2.
如权利要求1所述的无监督语法纠错方法,其特征在于,所述根据所述词性混淆集,建立所述低资源语言评估语料库的目标句子中特定词语的派生句子数据流,具体包括:根据所述词性混淆集,判断所述低资源语言评估语料库的目标句子中特定词语是否为所述词性混淆集的词语;若是,则将对应的词性标记分配给所述特定词语,将所述词性标记对应的词性混淆集的每一个混淆词语代替所述特定词语生成所述目标句子的派生句子,得到所述特定词语的派生句子数据流;其中,所述词性标记与所述词性混淆集一一对应
。3.
如权利要求1所述的无监督语法纠错方法,其特征在于,所述依据融合困惑度,采用预先训练好的语言模型对所述特定词语的派生句子进行困惑度评估,得到所述派生句子的困惑度得分;所述融合困惑度包括一阶困惑度和二阶困惑度,具体包括:通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型,根据所述派生句子中剩余词语的概率分布计算得到所述派生句子的一阶困惑度;通过对所述派生句子中两个连续的词语进行掩码操作,采用所述预先训练好的语言模型,评估所述掩码操作后的派生句子的困惑度作为所述派生句子的二阶困惑度;根据权重比例融合所述一阶困惑度和二阶困惑度,得到所述派生句子的困惑度得分;其中,所述融合困惑度包括所述一阶困惑度和二阶困惑度
。4.
如权利要求3所述的无监督语法纠错方法,其特征在于,所述通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型,根据所述派生句子中剩余词语的概率分布计算得到所述派生句子的一阶困惑度,具体包括:通过对所述特定词语的派生句子进行单一词语掩码操作,采用预先训练好的语言模型通过伪困惑度计算所述派生句子中剩余词语的条件对数概率并进行求和得到所述派生句子的一阶困惑度;其中,所述一阶困惑度的数学表达式为:式中,
PLL
first
(X)
为句子
X
的一阶困惑度;
|X|
为所述句子
X
的词语数量,
|X|

n

P
MLM
(w
t
|X
nt
)
为所述句子
X
中除了掩码词条
w
t
以外的剩余词语的条件对数概率;
w
t
为所述句子
X
中第
t
个词语,代表掩码词条;
t
为所述句子
X
的掩码词条
w
t
对应的下标;
X
nt
为所述句子
X
中除了掩
码词条
w
t
以外的剩余词语;其中,所述伪困惑度为所述条件对数概率用
[MASK]
替换
w
t
得到的
MLM
分数
。5.
如权利要求4所述的无监督语法纠错方法,其特征在于,所述二阶困惑度的数学表达式为:式为:其中,
PLL
second
(X)
为所述句子
X
的二阶困惑度;
SOR(
·
)
是关于二阶困惑度的标记的
MLM
得分;
X
n{0,1}
为所述句子
X
中除了所述掩码词条对应的下标为0和1以外的剩余词语;
X
n{t

1,t}
为所述句子
X
中除了所述掩码词条对应的下标为
t
‑1和
t
以外的剩余词语;<...

【专利技术属性】
技术研发人员:蒋盛益林楠铠吴凯莹
申请(专利权)人:广东外语外贸大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1