文本纠错方法技术

技术编号:39588374 阅读:11 留言:0更新日期:2023-12-03 19:39
本申请实施例公开一种文本纠错方法

【技术实现步骤摘要】
文本纠错方法、装置、电子设备及存储介质


[0001]本申请涉及自然语言处理领域,具体涉及一种文本纠错方法

装置

电子设备及存储介质


技术介绍

[0002]在自然语言处理领域中,对语音内容进行识别,并转化为文本内容是一项很普及的应用

在将语音内容转化为文本内容时,容易出现文本内容错误的情况,因此需要对文本进行纠错

文本纠错是自然语言处理中的一项重要任务,但是目前的文本纠错技术普遍存在着对文本的纠错能力较弱,对于文本中出现的新词汇和新用法的处理效果不佳等问题,导致对于文本的错误检测精度不高,从而影响文本纠错的准确率


技术实现思路

[0003]本申请实施例公开了一种文本纠错方法

装置

电子设备及存储介质,能够提高文本的错误检测精度,从而提高文本纠错的准确率

[0004]本申请实施例公开一种文本纠错方法,所述方法包括:
[0005]获取原始文本;
[0006]通过训练得到的文本错误检测模型对所述原始文本进行错误检测,得到所述原始文本的目标检测结果;所述文本检测模型包括拼音错误检测单元和语法错误检测单元,所述拼音错误检测单元用于对所述原始文本进行拼音错误检测,得到第一检测结果,所述语法错误检测单元用于对所述原始文本进行语法错误检测,得到第二检测结果,所述目标检测结果为融合所述第一检测结果及第二检测结果得到;
[0007]通过训练得到的文本纠错模型对所述原始文本与所述目标检测结果进行特征提取,得到所述原始文本对应的目标特征向量,再根据所述目标特征向量对所述原始文本进行纠错,得到目标文本

[0008]作为一种可选的实施方式,所述拼音错误检测单元包括
N

Gram
模型;所述对所述原始文本进行拼音错误检查,得到第一检测结果,包括:
[0009]将所述原始文本转化为拼音列表;
[0010]通过所述
N

Gram
模型根据所述拼音列表确定所述原始文本的概率分布,并根据所述概率分布确定第一检测结果

[0011]作为一种可选的实施方式,所述根据所述拼音列表确定所述原始文本的概率分布,并根据所述概率分布确定第一检测结果,包括:
[0012]根据所述拼音列表构建
M
个词序列,第
I
个词序列包括所述拼音列表中的第
n
个词拼音以及在所述第
n
个词拼音之前的
N
‑1个词拼音;其中,所述
M
为所述拼音列表包含的总词数减去
N
再加上1的值,所述
I
为小于或等于
M
的正整数,所述
n
为所述
N
加上
I
再减去1的值;
[0013]确定第一词序列在语料库中出现的第一次数,以及所述第一词序列的拼音序列在所述语料库中出现的第二次数,所述第一词序列的拼音序列为所述第一词序列中包含的在

n
个词拼音之前的
N
‑1个词拼音组成的序列;所述第一词序列为任一所述词序列;
[0014]根据所述第一次数及第二次数,确定所述第一词序列对应的条件概率;
[0015]根据各个所述词序列对应的条件概率,确定所述拼音列表中的各个词拼音对应的拼音检测结果,以得到第一检测结果

[0016]作为一种可选的实施方式,所述语法错误检测单元包括第一
BERT
模型
、Word2Vec
模型及长短期记忆递归神经网络
LSTM
网络;所述对所述原始文本进行语法错误检测,得到第二检测结果,包括:
[0017]通过所述第一
BERT
模型生成所述原始文本对应的文本表示向量;所述文本表示向量包含上下文信息;
[0018]通过所述
Word2Vec
模型及所述文本表示向量,生成拼接向量;
[0019]将所述拼接向量输入至所述
LSTM
网络,通过所述
LSTM
网络根据所述输入向量确定所述原始文本的每个位置是否出现语法错误,以得到第二检测结果

[0020]作为一种可选的实施方式,所述语法错误检测单元还包括词嵌入层

位置嵌入层以及索引嵌入层;所述通过所述第一
BERT
模型生成所述原始文本对应的文本表示向量,所述方法还包括:
[0021]通过所述词嵌入层生成所述原始文本对应的第一词向量,通过所述位置嵌入层生成所述原始文本对应的位置向量,以及通过所述索引嵌入层生成所述原始文本对应的索引向量;
[0022]将所述第一词向量

所述位置向量以及所述索引向量进行拼接,得到所述初始向量;
[0023]通过所述第一
BERT
模型对所述初始向量进行特征提取,生成所述文本表示向量;
[0024]所述通过所述
Word2Vec
模型及所述文本表示向量,生成拼接向量,包括:
[0025]通过将所述原始文本输入到
Word2Vec
模型中,通过所述
Word2Vec
模型生成所述原始文本对应的第二词向量;
[0026]将所述第二词向量与所述文本表示向量进行拼接,生成所述拼接向量

[0027]作为一种可选的实施方式,所述通过所述
LSTM
网络根据所述拼接向量确定所述原始文本的每个位置是否出现语法错误,以得到第二检测结果,包括:
[0028]将所述拼接向量中第一个位置的向量作为第一个时刻的输入向量,通过所述
LSTM
网络的输入门

遗忘门以及输出门根据当前时刻的输入向量及上一时刻的输出向量进行计算,得到所述当前时刻对应的输出向量;
[0029]根据所述当前时刻对应的输出向量确定所述当前时刻的输入向量对应的当前位置是否出现语法错误,得到所述当前位置的语法检测结果;
[0030]根据所述当前时刻对应的输出向量对所述
LSTM
网络的细胞状态进行更新;
[0031]将所述拼接向量中下一个位置的向量作为下一时刻的输入向量,并通过更新后的
LSTM
网络重新执行所述通过所述
LSTM
网络的输入门

遗忘门以及输出门根据当前时刻的输入向量及上一时刻的输出向量进行计算,得到所述当前时刻对应的输出向量的步骤,直至得到所述拼接向量中的各个位置对应的语法检测结果,以得到第二检测结果

[0032]作为一种可选的实施方式,所述文本纠错模型包括特征提取单本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本纠错方法,其特征在于,所述方法包括:获取原始文本;通过训练得到的文本错误检测模型对所述原始文本进行错误检测,得到所述原始文本的目标检测结果;所述文本检测模型包括拼音错误检测单元和语法错误检测单元,所述拼音错误检测单元用于对所述原始文本进行拼音错误检测,得到第一检测结果,所述语法错误检测单元用于对所述原始文本进行语法错误检测,得到第二检测结果,所述目标检测结果为融合所述第一检测结果及第二检测结果得到;通过训练得到的文本纠错模型对所述原始文本与所述目标检测结果进行特征提取,得到所述原始文本对应的目标特征向量,再根据所述目标特征向量对所述原始文本进行纠错,得到目标文本
。2.
根据权利要求1所述的方法,所述拼音错误检测单元包括
N

Gram
模型;所述对所述原始文本进行拼音错误检查,得到第一检测结果,包括:将所述原始文本转化为拼音列表;通过所述
N

Gram
模型根据所述拼音列表确定所述原始文本的概率分布,并根据所述概率分布确定第一检测结果
。3.
根据权利要求2所述的方法,其特征在于,所述根据所述拼音列表确定所述原始文本的概率分布,并根据所述概率分布确定第一检测结果,包括:根据所述拼音列表构建
M
个词序列,第
I
个词序列包括所述拼音列表中的第
n
个词拼音以及在所述第
n
个词拼音之前的
N
‑1个词拼音;其中,所述
M
为所述拼音列表包含的总词数减去
N
再加上1的值,所述
I
为小于或等于
M
的正整数,所述
n
为所述
N
加上
I
再减去1的值;确定第一词序列在语料库中出现的第一次数,以及所述第一词序列的拼音序列在所述语料库中出现的第二次数,所述第一词序列的拼音序列为所述第一词序列中包含的在第
n
个词拼音之前的
N
‑1个词拼音组成的序列;所述第一词序列为任一所述词序列;根据所述第一次数及第二次数,确定所述第一词序列对应的条件概率;根据各个所述词序列对应的条件概率,确定所述拼音列表中的各个词拼音对应的拼音检测结果,以得到第一检测结果
。4.
根据权利要求1所述的方法,所述语法错误检测单元包括第一
BERT
模型
、Word2Vec
模型及长短期记忆递归神经网络
LSTM
网络;所述对所述原始文本进行语法错误检测,得到第二检测结果,包括:通过所述第一
BERT
模型生成所述原始文本对应的文本表示向量;所述文本表示向量包含上下文信息;通过所述
Word2Vec
模型及所述文本表示向量,生成拼接向量;将所述拼接向量输入至所述
LSTM
网络,通过所述
LSTM
网络根据所述输入向量确定所述原始文本的每个位置是否出现语法错误,以得到第二检测结果
。5.
根据权利要求4所述的方法,其特征在于,所述语法错误检测单元还包括词嵌入层

位置嵌入层以及索引嵌入层;所述通过所述第一
BERT
模型生成所述原始文本对应的文本表示向量,包括:通过所述词嵌入层生成所述原始文本对应的第一词向量,通过所述位置嵌入层生成所述原始文本对应的位置向量,以及通过所述索引嵌入层生成所述原始文本对应的索引向
量;将所述第一词向量

所述位置向量以及所述索引向量进行拼接,得到初始向量;通过所述第一
BERT
模型对所述初始向量进行特征提取,生成所述原始文本对应的文本表示向量;所述通过所述
Word2Vec
模型及所述文本表示向量,生成拼接向量,包括:将所述原始文本输入到
Word2Vec
模型中,通过所述
Word2Vec
模型生成所述原始文本对应的第二词向量;将所述第二词向量与所述文本表示向量进行拼接,生成所述拼接向量
。6.
根据权利要求4所述的方法,其特征在于,所述通过所述
LSTM
网络根据所述拼接向量确定所述原始文本的每个位置是否出现语法错误,以得到第二检测结果,包...

【专利技术属性】
技术研发人员:杜量许程冲黄莉梅马志豪赵文博吕召彪肖清
申请(专利权)人:联通广东产业互联网有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1