一种文本错误检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31499452 阅读:31 留言:0更新日期:2021-12-22 23:06
本申请公开了一种文本错误检测方法,所述文本错误检测方法包括获取第一语言的训练文本,并确定训练文本的困惑度和语法错误信息;将训练文本翻译为第二语言的枢轴语言文本,将枢轴语言文本翻译为第一语言的目标文本;计算训练文本与目标文本的文本相似度,并确定目标文本的困惑度;将训练文本和目标文本分别与枢轴语言文本进行词对齐操作,得到训练文本和目标文本的对齐评价信息;训练初始模型得到语义不明检测模型,通过语义不明检测模型对待检测语句文本执行文本错误检测操作。本申请能够检测文本中的语义不明错误,提高文本检测的精准度。本申请还公开了一种文本错误检测装置、一种电子设备及一种存储介质,具有以上有益效果。果。果。

【技术实现步骤摘要】
一种文本错误检测方法、装置、电子设备及存储介质


[0001]本申请涉及文本检测
,特别涉及一种文本错误检测方法、装置、一种电子设备及一种存储介质。

技术介绍

[0002]在互动式语法反馈教学中,对用户输入的文本进行错误检测能够提高教学质量。文本中的语义不明错误为导致文本存在歧义的错误,在相关技术中,当用户的输入为语义不明的句子时,则直接判定为检测到语法错误并进行语法纠错,这种纠错方式往往会造成将错误的地方改成仍然是错误的表达,上述方式无法了解用户的真实表达意图并提供有意义的反馈。
[0003]因此,如何检测文本中的语义不明错误,提高文本检测的精准度是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种文本错误检测方法、装置、一种电子设备及一种存储介质,能够检测文本中的语义不明错误,提高文本检测的精准度。
[0005]为解决上述技术问题,本申请提供一种文本错误检测方法,该文本错误检测方法包括:
[0006]获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本错误检测方法,其特征在于,包括:获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。2.根据权利要求1所述文本错误检测方法,其特征在于,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。3.根据权利要求1所述文本错误检测方法,其特征在于,将所述训练文本和所述目标文本分别与枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息,包括:将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。4.根据权利要求3所述文本错误检测方法,其特征在于,所述对齐评价信息包括:所述训练文本中对齐的实词与所在句子中所有实词数量的比值;所述目标文本中对齐的实词与所在句子中所有实词数量的比值;对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;第一词对齐概率与第二词对齐比例的概率;其中,所述第一词对齐概率为所述训练文本与所述枢轴语言文本词对齐的概率,所述第二词对齐比例为所述训练文本与所述枢轴语言文本词对齐的概率。5.根据权利要求1所述文本错误检测方法,...

【专利技术属性】
技术研发人员:余勇宏
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1