文本处理方法、装置、电子设备及计算机可读存储介质制造方法及图纸

技术编号:32826076 阅读:14 留言:0更新日期:2022-03-26 20:28
本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,涉及自然语言处理领域。该方法包括:获取待校正的第一文本数据;将第一文本数据输入至目标处理器,得到第一文本数据的处理结果;其中,目标处理器对第一文本数据进行动词识别,得到待校正动词,并对所识别的待校正动词进行时态校正,得到待校正动词对应的目标动词;处理结果中包括该目标动词。本申请实施例基于目标处理器对第一文本数据中的动词进行时态校正,使得处理后的第一文本数据更加符合语法规范。的第一文本数据更加符合语法规范。的第一文本数据更加符合语法规范。

【技术实现步骤摘要】
文本处理方法、装置、电子设备及计算机可读存储介质


[0001]本申请涉及自然语言处理
,具体而言,本申请涉及一种文本处理方法、装置、电子设备及计算机可读存储介质。

技术介绍

[0002]机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。它是计算语言学的一个分支,是人工智能的终极目标之一,具有重要的科学研究价值。
[0003]通常,机器翻译的方法主要包括基于统计的方法和基于人工神经网络的方法;其中,基于人工神经网络的机器翻译在译文流畅度方面有一定提升。但是目前机器翻译的输出都会存在一定的语法错误导致翻译的准确率较低;比如,当目标语言为英文时,其中动词的时态容易发生错误。

技术实现思路

[0004]本申请实施例提供了一种文本处理方法、装置、电子设备及计算机可读存储介质,可以解决机器翻译的准确率较低的问题。所述技术方案如下:
[0005]根据本申请实施例的一个方面,提供了一种文本处理方法,该方法包括:
[0006]获取待校正的第一文本数据;
[0007]将第一文本数据输入至目标处理器,得到第一文本数据的处理结果;其中,目标处理器对第一文本数据进行动词识别,得到待校正动词,并对所识别的待校正动词进行时态校正,得到待校正动词对应的目标动词;处理结果中包括目标动词。
[0008]可选的,上述对所识别的待校正动词进行时态校正,得到待校正动词对应的目标动词,包括:
[0009]根据预设的时态词典,确定待校正动词的每个备选时态;以及对第一文本数据中的待校正动词进行掩码处理,得到掩码文本;其中,掩码文本包括待校正动词的上下文信息;
[0010]将掩码文本输入至预设预测模型,预测得到每个备选时态的预测概率;
[0011]根据预测概率,确定备选时态中的目标时态以及待校正动词在目标时态下的目标动词。
[0012]可选的,上述将掩码文本输入至预设预测模型,预测得到每个备选时态的预测概率,包括:
[0013]将掩码文本进行词嵌入处理,生成掩码文本对应的词向量;
[0014]基于预测模型对词向量进行预测,得到每个备选时态的预测概率。
[0015]可选的,上述获取待校正的第一文本数据,包括:
[0016]将待翻译的原始文本数据输入翻译器,获取翻译器输出的第一文本数据。
[0017]可选的,上述确定备选时态中的目标时态,包括:
[0018]从预测概率中,获取待校正动词对应的备选时态的预测概率,作为第一概率;
[0019]获取预测概率最大的备选时态作为校正时态,并将最大的预测概率作为第二概率;
[0020]基于第一概率和第二概率确定备选时态中的目标时态。
[0021]可选的,上述基于第一概率和第二概率确定备选时态中的目标时态,包括:
[0022]当第一概率和第二概率的概率差值不小于预设阈值,则将校正时态作为目标时态;
[0023]当第一概率和第二概率的概率差值小于预设阈值,则将待校正动词对应的备选时态作为目标时态。
[0024]可选的,上述方法还包括:
[0025]获取预设训练集中的各标准文本和标准文本中标准动词;
[0026]将标准文本中的标准动词进行掩码处理,得到标准掩码数据;
[0027]将各标准掩码数据输入预设初始模型,得到初始模型实时输出的标签动词;
[0028]基于预设的损失函数计算标准动词和标签动词的差值,并实时调整初始模型的参数;当差值小于预设损失阈值,则初始模型收敛,得到预测模型。
[0029]根据本申请实施例的另一个方面,提供了一种文本处理装置,该装置包括:
[0030]获取模块,用于获取待校正的第一文本数据;
[0031]处理模块,用于将第一文本数据输入至目标处理器,得到第一文本数据的处理结果;其中,目标处理器对第一文本数据进行动词识别,得到待校正动词,并对所识别的待校正动词进行时态校正,得到待校正动词对应的目标动词;处理结果中包括目标动词。
[0032]可选的,上述处理模块,包括:
[0033]预处理单元,用于根据预设的时态词典,确定待校正动词的每个备选时态;以及对第一文本数据中的待校正动词进行掩码处理,得到掩码文本;其中,掩码文本包括待校正动词的上下文信息;
[0034]预测单元,用于将掩码文本输入至预设预测模型,预测得到每个备选时态的预测概率;
[0035]确定单元,用于根据预测概率,确定备选时态中的目标时态以及待校正动词在目标时态下的目标动词。
[0036]可选的,上述预测单元,用于:
[0037]将掩码文本进行词嵌入处理,生成掩码文本对应的词向量;
[0038]基于预测模型对词向量进行预测,得到每个备选时态的预测概率。
[0039]可选的,上述获取模块,用于:
[0040]将待翻译的原始文本数据输入翻译器,获取翻译器输出的第一文本数据。
[0041]可选的,上述确定单元,用于:
[0042]从预测概率中,获取待校正动词对应的备选时态的预测概率,作为第一概率;
[0043]获取预测概率最大的备选时态作为校正时态,并将最大的预测概率作为第二概率;
[0044]基于第一概率和第二概率确定备选时态中的目标时态。
[0045]可选的,上述确定单元,还用于:
[0046]当第一概率和第二概率的概率差值不小于预设阈值,则将校正时态作为目标时态;
[0047]当第一概率和第二概率的概率差值小于预设阈值,则将待校正动词对应的备选时态作为目标时态。
[0048]可选的,上述装置还包括训练模块,用于:
[0049]获取预设训练集中的各标准文本和标准文本中标准动词;
[0050]将标准文本中的标准动词进行掩码处理,得到标准掩码数据;
[0051]将各标准掩码数据输入预设初始模型,得到初始模型实时输出的标签动词;
[0052]基于预设的损失函数计算标准动词和标签动词的差值,并实时调整初始模型的参数;当差值小于预设损失阈值,则初始模型收敛,得到预测模型。
[0053]根据本申请实施例的另一个方面,提供了一种电子设备,该电子设备包括:存储器、处理器及存储在存储器上的计算机程序,上述处理器执行计算机程序以实现本申请实施例第一方面所示方法的步骤。
[0054]根据本申请实施例的再一个方面,提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面所示方法的步骤。
[0055]根据本申请实施例的一个方面,提供了一种计算机程序产品,其包括计算机程序,该计算机程序被处理器执行时实现本申请实施例第一方面所示方法的步骤。
[0056]本申请实施例提供的技术方案带来的有益效果是:
[0057]本申请实施例通过目标处理器,对待校正的第一文本数据进行处理,达到校正本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括获取待校正的第一文本数据;将所述第一文本数据输入至目标处理器,得到所述第一文本数据的处理结果;其中,所述目标处理器对所述第一文本数据进行动词识别,得到待校正动词,并对所识别的待校正动词进行时态校正,得到所述待校正动词对应的目标动词;所述处理结果中包括所述目标动词。2.根据权利要求1所述的方法,其特征在于,所述对所识别的待校正动词进行时态校正,得到所述待校正动词对应的目标动词,包括:根据预设的时态词典,确定所述待校正动词的每个备选时态;以及对所述第一文本数据中的所述待校正动词进行掩码处理,得到掩码文本;其中,所述掩码文本包括所述待校正动词的上下文信息;将所述掩码文本输入至预设预测模型,预测得到每个所述备选时态的预测概率;根据所述预测概率,确定所述备选时态中的目标时态以及所述待校正动词在所述目标时态下的目标动词。3.根据权利要求2所述的方法,其特征在于,所述将所述掩码文本输入至预设预测模型,预测得到每个所述备选时态的预测概率,包括:将所述掩码文本进行词嵌入处理,生成所述掩码文本对应的词向量;基于所述预测模型对所述词向量进行预测,得到每个所述备选时态的预测概率。4.根据权利要求2所述的方法,其特征在于,所述获取待校正的第一文本数据,包括:将待翻译的原始文本数据输入翻译器,获取翻译器输出的第一文本数据。5.根据权利要求4所述的方法,其特征在于,所述确定所述备选时态中的目标时态,包括:从所述预测概率中,获取所述待校正动词对应的备选时态的预测概率,作为第一概率;获取所述预测概率最大的备选时态作为校正时态,并将最大的所述预测概率作为第二概率;基于所述第一概率和所述第二概...

【专利技术属性】
技术研发人员:礼慧孙健郭萌陈海燕
申请(专利权)人:文思海辉智科科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1