【技术实现步骤摘要】
一种汉语语法纠错的评估方法、装置、设备及存储介质
[0001]本专利技术涉及自然语言处理
,尤其涉及一种汉语语法纠错的评估方法、装置、设备及存储介质。
技术介绍
[0002]国外英语语法纠错的研究起步比较早,英语的语法规则比较统一,针对英语语法纠错的评估指标也比较多。例如基于参考答案的F值、I
‑
measure、F
0.5
和GLEU,同时也有无参考答案的度量指标,涵盖了语法、流畅性和语义评估。然而,相较于英语语法纠错,国内汉语语法纠错的研究起步比较晚,汉语语法规则的复杂多变,导致汉语的语法纠错在自然语言处理领域中一直极具有挑战性。由于汉语语法纠错的评估指标受汉语分词结果或不同语言模型的显著影响,如何全面、客观地评估汉语语法的纠错效果成为了一个热门的研究方向。
[0003]现有汉语语法纠错评价方法的一个明显缺陷是评估结果会受中文分词结果或不同语言模型的显著影响,因此,在不同的分词系统或不同的语言模型下,相同的汉语语法纠错模型的评估结果会有很大差异。
技术实现思路
>[0004]本专利本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种汉语语法纠错的评估方法,其特征在于,包括:对原始汉语语法纠错评估语料库的测试集进行标注,得到扩充测试集;其中,所述扩充测试集包括若干原始句子,及对应的若干金标准注释;将每一修正句子分别与所有所述金标准注释进行匹配,计算得到基于句子级别的准确率;其中,所述修正句子为所述原始句子利用待评估汉语语法纠错模型进行修正后得到的句子;基于所有所述修正句子,利用BLEU算法,计算得到基于字级别的BLEU值;将每一所述修正句子分别与对应的所述原始句子进行匹配,计算得到基于字级别的修改度;根据所述准确率、所述BLEU值和所述基于字级别的修改度对所述待评估汉语语法纠错模型进行评估。2.如权利要求1所述的汉语语法纠错的评估方法,其特征在于,所述对原始汉语语法纠错评估语料库的测试集进行标注,得到扩充测试集,包括:对所述测试集中每一第一原始句子进行标注,得到每一所述第一原始句子的若干修正答案;其中,所述第一原始句子为含有两个金标准注释的原始句子;对于每一所述第一原始句子的若干修正答案,当出现至少两个相同的修正答案时,将所述相同的修正答案作为新的金标准注释添加至所述测试集的黄金标准校正注释集中,得到扩充测试集。3.如权利要求1所述的汉语语法纠错的评估方法,其特征在于,所述将每一修正句子分别与所有所述金标准注释进行匹配,计算得到基于句子级别的准确率,包括:将每一所述修正句子分别与所有所述金标准注释进行匹配,得到若干有效的修正句子;统计所有所述有效的修正句子的总数量,并将所述总数量除以所述扩充测试集的样本数,得到基于句子级别的准确率。4.如权利要求1所述的汉语语法纠错的评估方法,其特征在于,所述基于所有所述修正句子,利用BLEU算法,计算得到基于字级别的BLEU值,包括:根据下式计算每一修正句子C
i
在不同粒度n下的准确率:式中,h
k
(
·
)表示出现在句子中的第k个n
‑
gram的数量,max
j∈m
(h
k
(S
ij
))表示任一n
‑
gram在所有的m个金标准注释中的最高频率;根据下式计算简洁惩罚因子:式中,l
c
表示修正句子C
i
的长度,l
s
为最接近l
c
的黄金标准注释的长度;根据下式计算BLEU值:
式中,BP是简洁惩罚因子,P
n
是修正句子C
i
在不同粒度n下的准确率...
【专利技术属性】
技术研发人员:蒋盛益,林楠铠,林晓钿,武洪艳,
申请(专利权)人:广东外语外贸大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。