一种文本错误检测方法、装置、电子设备及存储介质制造方法及图纸

技术编号:31499452 阅读:23 留言:0更新日期:2021-12-22 23:06
本申请公开了一种文本错误检测方法,所述文本错误检测方法包括获取第一语言的训练文本,并确定训练文本的困惑度和语法错误信息;将训练文本翻译为第二语言的枢轴语言文本,将枢轴语言文本翻译为第一语言的目标文本;计算训练文本与目标文本的文本相似度,并确定目标文本的困惑度;将训练文本和目标文本分别与枢轴语言文本进行词对齐操作,得到训练文本和目标文本的对齐评价信息;训练初始模型得到语义不明检测模型,通过语义不明检测模型对待检测语句文本执行文本错误检测操作。本申请能够检测文本中的语义不明错误,提高文本检测的精准度。本申请还公开了一种文本错误检测装置、一种电子设备及一种存储介质,具有以上有益效果。果。果。

【技术实现步骤摘要】
一种文本错误检测方法、装置、电子设备及存储介质


[0001]本申请涉及文本检测
,特别涉及一种文本错误检测方法、装置、一种电子设备及一种存储介质。

技术介绍

[0002]在互动式语法反馈教学中,对用户输入的文本进行错误检测能够提高教学质量。文本中的语义不明错误为导致文本存在歧义的错误,在相关技术中,当用户的输入为语义不明的句子时,则直接判定为检测到语法错误并进行语法纠错,这种纠错方式往往会造成将错误的地方改成仍然是错误的表达,上述方式无法了解用户的真实表达意图并提供有意义的反馈。
[0003]因此,如何检测文本中的语义不明错误,提高文本检测的精准度是本领域技术人员目前需要解决的技术问题。

技术实现思路

[0004]本申请的目的是提供一种文本错误检测方法、装置、一种电子设备及一种存储介质,能够检测文本中的语义不明错误,提高文本检测的精准度。
[0005]为解决上述技术问题,本申请提供一种文本错误检测方法,该文本错误检测方法包括:
[0006]获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;
[0007]将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;
[0008]计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;
[0009]将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;
[0010]根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;
[0011]通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。
[0012]可选的,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。
[0013]可选的,将所述训练文本和所述目标文本分别与枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息,包括:
[0014]将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;
[0015]将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;
[0016]根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本
的对齐评价信息。
[0017]可选的,所述对齐评价信息包括:
[0018]所述训练文本中对齐的实词与所在句子中所有实词数量的比值;
[0019]所述目标文本中对齐的实词与所在句子中所有实词数量的比值;
[0020]对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;
[0021]第一词对齐概率与第二词对齐比例的概率;其中,所述第一词对齐概率为所述训练文本与所述枢轴语言文本词对齐的概率,所述第二词对齐比例为所述训练文本与所述枢轴语言文本词对齐的概率。
[0022]可选的,通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作包括:
[0023]确定待检测语句文本;
[0024]将所述待检测语句文本输入至所述语义不明检测模型,根据所述语义不明检测模型输出的检测结果判断所述待检测语句文本是否存在文本错误。
[0025]可选的,所述确定待检测语句文本包括:
[0026]若接收到语音信息,则将所述语音信息转换为所述第一语言的待检测语句文本。
[0027]可选的,在通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作之后,还包括:
[0028]在所述待检测语句文本标记存在错误的文本内容,并根据所述存在错误的文本内容生成所述第一语言的纠正文本。
[0029]本申请还提供了一种文本错误检测装置,该文本错误检测装置包括:
[0030]训练文本处理模块,用于获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;
[0031]语言翻译模块,用于将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;
[0032]目标文本处理模块,用于计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;
[0033]词对齐模块,用于将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;
[0034]模型训练模块,用于根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;
[0035]检测模块,用于通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。
[0036]本申请还提供了一种存储介质,其上存储有计算机程序,所述计算机程序执行时实现上述文本错误检测方法执行的步骤。
[0037]本申请还提供了一种电子设备,包括存储器和处理器,所述存储器中存储有计算机程序,所述处理器调用所述存储器中的计算机程序时实现上述文本错误检测方法执行的
步骤。
[0038]本申请提供了一种文本错误检测方法,包括获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。
[0039]本申请在得到第一语言的训练文本之后,确定训练文本的困惑度和语法作物信息。将训练文本翻译为第二语言后将其翻译为第一语言的目标文本,进而确定目标文本的困惑度,以及目标文本与训练文本的文本相似度。本申请还将训练文本和目标文本分别与枢轴语言文本进行词对齐操作得到对齐评价信息,进而利用上述关于训练文本和目标文本的特征信息训练初始模型得到语义不明检测模型,利用语义不明检测模型检测待检测语句文本中的语义不明错误。可见,本申请能够检测文本中的语义不明错误,提高文本检测的精准度。本申请同时还提供了一种文本错误检测装置、一种电子设备和一种存储介质,具有上述有益效果,在此不再赘述。
附图说明
[0040]为了更清楚地说明本申请实施例,下面将对实施例中所需要使用的附图做本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本错误检测方法,其特征在于,包括:获取第一语言的训练文本,并确定所述训练文本的困惑度和语法错误信息;将所述训练文本翻译为第二语言的枢轴语言文本,将所述枢轴语言文本翻译为所述第一语言的目标文本;计算所述训练文本与所述目标文本的文本相似度,并确定所述目标文本的困惑度;将所述训练文本和所述目标文本分别与所述枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息;根据所述训练文本的困惑度、所述训练文本的语法错误信息、所述文本相似度、所述目标文本的困惑度、所述目标文本与所述训练文本的困惑度比值和所述对齐评价信息训练初始模型得到语义不明检测模型;通过所述语义不明检测模型对待检测语句文本执行文本错误检测操作。2.根据权利要求1所述文本错误检测方法,其特征在于,所述语法错误信息包括所述训练文本中每个词存在语法错误的平均概率,以及词根不同的词替换错误数量。3.根据权利要求1所述文本错误检测方法,其特征在于,将所述训练文本和所述目标文本分别与枢轴语言文本进行词对齐操作,得到所述训练文本和所述目标文本的对齐评价信息,包括:将所述训练文本与所述枢轴语言文本进行词对齐操作得到第一对齐结果;将所述目标文本与所述枢轴语言文本进行词对齐操作得到第二对齐结果;根据所述第一对齐结果和所述第二对齐结果确定所述训练文本和所述目标文本的对齐评价信息。4.根据权利要求3所述文本错误检测方法,其特征在于,所述对齐评价信息包括:所述训练文本中对齐的实词与所在句子中所有实词数量的比值;所述目标文本中对齐的实词与所在句子中所有实词数量的比值;对齐数比值;其中,所述对齐数比值的确定过程包括:将所述训练文本和所述目标文本中同时与枢轴语言文本对应的词语连线,将连线交叉个数和总对齐的比值作为所述对齐数比值;第一词对齐概率与第二词对齐比例的概率;其中,所述第一词对齐概率为所述训练文本与所述枢轴语言文本词对齐的概率,所述第二词对齐比例为所述训练文本与所述枢轴语言文本词对齐的概率。5.根据权利要求1所述文本错误检测方法,...

【专利技术属性】
技术研发人员:余勇宏
申请(专利权)人:上海流利说信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1