【技术实现步骤摘要】
一种基于BERT的多轮迭代法律文本纠错方法
[0001]本专利技术涉及语法纠错技术,具体是一种基于BERT的多轮迭代法律文本纠错方法。
技术介绍
[0002]校对是仔细检查书面文件以识别和纠正拼写及语法错误的过程,这个过程对于确保文档准确、清晰和专业、以及有效地将预期信息传达给受众非常重要。对于法律文件来说,校对尤其重要,因为这类文件通常很复杂,并且包含需要精确和清晰的技术语言。合同或协议等法律文件中的一个错误就可能造成严重的后果,严重的后果包括法律纠纷和经济损失,例如,在法律合同中拼写错误的名字或错误的日期可能会使合同无法执行、或者在法律摘要中放错标点符号可能会改变句子的意思,破坏法律论证。因此,为了保证法律文书的准确性和有效性,实现法律目的,法律文书校对是必不可少的。
[0003]法律文件的自动校对是有益的,因为自动化系统可以:1)法律文件的自动校对速度比人力快得多,可以节省时间和资源;2)对大量文件采用一致的校对标准,确保所有文件的准确性和专业性;3)识别人工可能忽略的错误,如逗号放错地方或重复的单词;4)节省 ...
【技术保护点】
【技术特征摘要】
1.一种基于BERT的多轮迭代法律文本纠错方法,其特征在于,包括如下步骤:1)对带有错误的法律文书文本句子进行语法纠正:将错误句子采用语法纠错GECToR模型对X
(0)
中的缺失、冗余、乱序、拼写错误进行纠正,其中,表示输入句子X
(0)
中第i个字,得到长度为m的纠错结果句子将句子X
(1)
和原始输入句子X
(0)
采用对比,得到长度为m的语法纠错的输出句子:具体语法纠错过程包括:1
‑
1)将X
(0)
输入BERT的编码器中得到X
(0)
的上下文词嵌入,即:1
‑
2)将投影到检测标签空间,得到每个字的上下文嵌入与检测标签0和1匹配的分数,即:其中DS
i,1
和DS
i,2
分别是上下文中的字被预测为检测标签0和1的分数,
·
为矩阵乘法,W
d
为经过学习的检测标签权值矩阵即2
×
768的实数矩阵,T表示矩阵转置,b
d
是一个偏置向量;1
‑
3)将投影到纠错动作标签空间中得到另一个分数,即:其中,CS
i,k
是字在标签词汇表O中被预测为第k个纠正动作标签的得分,是纠正动作标签的权重矩阵即16500
×
768的实数矩阵,b
c
是偏差向量、也是可学习的;1
‑
4)对于句子中的每个字,采用softmax计算字被预测为标签词汇表O中第i
′
个检测标签和第i
″
纠正动作标签的条件概率,其中,检测标签为0或1,即:即:其中e是自然对数的基数约等于2.71828,d
i
为预测检测标记,DS
i,1
和DS
i,2
分别为d
i
=0和d
i
=1的分数,DS
i,i
′
是DS
i,1
和DS
i,2
中的一个,i
′
∈{0,1},c
i
为预测校正动作标签,CS
i,i
″
和CS
i,k
是字在标签词汇表O中被预测为第i
″
和第k个纠正动作标签的得分;1
‑
5)将字的检测标记为1的概率组成概率向量,然后将概率向量的最大概率作为句子X
(0)
出现错误的概率:1
‑
6)通过argmax函数选择被预测为每一个纠正动作标签的概率组成的集合中最大的概率所对应的位置:因此,对于X
(0)
,有最大纠正动作标签概率列表List_P
c(0)
和索引列表List_idx
(0)
::
1
‑
7)将List_idx
(0)
、List_P
c(0)
、和X
(0)
采用post
‑
process操作得到长度为m的纠错结果句子:1
‑
8)将输入句X
(0)
与X
(1)
结合起来,生成一个新的输出句子、不包括X
(0)
的拼写纠正修改:1
‑
8)采用交叉熵损失函数进行微调:8)采用交叉熵损失函数进行微调:其中n是句子X
(0)
的长度,如果对应的正确的检测标签是0,那么如果检测标签是1,那么如果对应的正确的纠正标签是词汇表O中的第t个纠正标签,那么否则为检测网络的训练目标是最小化L
d
,校正网络的训练目标是最小化L
c
,将这两个损失函数的线性组合作为总体损失函数,如下所示:L=λ
×
L
d
+(1
‑
λ)
×
L
c
,其中,λ∈[0,1]是系数;2)进一步对句子X
(2)
中的拼写错误进行纠正:首先将句子X
(2)
输入MLM模型中的MLM1模块得到排名前l个候选词的多元列表:其中表示X
(2)
中的第i个字在上下文中被预测为排名前l个候选词的列表,将和X
(2)
采用语音限制算法Limiter得到长度为m的句子:最后将X
(4)
输入两轮MLM模型中的MLM2模块得到长度为m的输出句子:即最终的纠正结果,其中MLM1模块和MLM2模块是模型结构一样但采用两种不同训练方法得到的神经网络模型,具体包括:2
‑
1)将输入句子X
(2)
通过MLM1,得到排名前l个候选词的多元列表即:2
‑
2)将采用Limiter算法,选取最合适的候选词组成输出句子:即:Limiter算法是检查候选词的多元列表中的每个候选词是否与X
(2)
中的原字的拼音相匹配;2
‑
3)将输入句子X
(4)
通过两轮的MLM2模块,得到长度为m的最终的句子即:X
(5)
=MLM2(MLM2(X
(4)
,1),1),其中MLM1模块和MLM2模块是结构一样但采用不同训练方式得到的神经网络模型。2.根据权利要求1所述的基于BERT的多轮迭代法律文本纠错方法,其特征在于,步骤2)中所述MLM模型设有结构一样但采用不同训练方式得到的神经网络模型,包括:2
‑4‑
1)将在长度为m的句子X
′
=(x
′1,
…
,x
′
m
)中的错误字替换为正确的字形成长度为m的句子X
″
...
【专利技术属性】
技术研发人员:刘金龙,秦伟健,陈桂彬,杨滨瑕,罗旭东,
申请(专利权)人:广西师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。