一种文本纠错方法、装置及设备制造方法及图纸

技术编号：40958279 阅读：4 留言：0更新日期：2024-04-18 20:35

本申请涉及自然语言处理技术领域，尤其涉及一种文本纠错方法、装置及设备。在本申请实施例中，基于文本纠错模型的字级向量生成模块确定原始语句对应的字级向量，基于初始化分词向量模块确定原始语句中各字符对应的分词标识，分词向量生成模块根据该分词标识确定原始语句对应的分词向量，词级向量生成模块根据该分词标识确定原始语句对应的词级向量，拼接模块拼接原始语句对应的字级向量、分词向量和词级向量，得到融合向量，文本纠错解码模块根据融合向量，确定原始语句对应的目标纠错语句，能够有效的融合原始语句的字符信息、分词信息以及词级信息，从而使文本纠错模型明确获知词级信息，提高文本纠错模型错字识别能力及错字纠错能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理，尤其涉及一种文本纠错方法、装置及设备。

技术介绍

1、通常情况下，中文文本输入错误导致的错误字符与上下文语义不一致等问题会严重影响文本语义理解。为了解决上述问题，目前较为流行的方案是采用预训练语言模型(bidirectional encoder representations from transformers，bert)等进行中文文本的纠错。

2、但是，bert模型主要是基于字级向量进行建模，忽略了分词信息和词级信息，导致在进行中文文本纠错时性能受限。

技术实现思路

1、本申请实施例提供了一种文本纠错方法、装置及设备，用以解决现有技术中在进行中文文本纠错时性能受限的问题。

2、第一方面，本申请实施例提供了一种文本纠错方法，所述方法包括：

3、获取原始语句，将原始语句输入至文本纠错模型中，基于文本纠错模型的字级向量生成模块确定原始语句对应的字级向量，字级向量生成模块将字级向量输入到文本纠错模型中第一长短时记忆网络，确定字级向量中各字符与相邻字符之间关联关系对应的特征向量，文本纠错模型中条件随机域模型，根据特征向量，确定原始语句各字符对应的目标分词，并确定该字符在目标分词中的位置，确定原始语句中各字符对应的分词标识；

4、文本纠错模型中分词向量生成模块根据分词标识及预设的分词表，确定原始语句对应的分词向量；文本纠错模型中词级向量生成模块根据分词标识及预设的词级向量表，确定原始语句对应的词级向量；

6、文本纠错模型中的文本纠错解码模块根据融合向量，确定原始语句对应的目标纠错语句。

7、第二方面，本申请实施例还提供了一种文本纠错装置，所述装置包括：

8、处理模块，用于获取原始语句，将原始语句输入至文本纠错模型中，基于文本纠错模型的字级向量生成模块确定原始语句对应的字级向量，字级向量生成模块将字级向量输入到文本纠错模型中第一长短时记忆网络，确定字级向量中各字符与相邻字符之间关联关系对应的特征向量，文本纠错模型中条件随机域模型，根据特征向量，确定原始语句各字符对应的目标分词，并确定该字符在目标分词中的位置，确定原始语句中各字符对应的分词标识；

9、确定模块，用于文本纠错模型中分词向量生成模块根据分词标识及预设的分词表，确定原始语句对应的分词向量；文本纠错模型中词级向量生成模块根据分词标识及预设的词级向量表，确定原始语句对应的词级向量；

10、拼接模块，用于文本纠错模型中的拼接模块将字级向量、分词向量和词级向量进行拼接，确定原始语句对应的融合向量；

11、纠错模块，用于文本纠错模型中的文本纠错解码模块根据融合向量，确定原始语句对应的目标纠错语句。

12、第三方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述文本纠错方法的步骤。

13、第四方面，本申请实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述文本纠错方法的步骤。

14、在本申请实施例中，获取原始语句，将原始语句输入至文本纠错模型中，基于文本纠错模型的字级向量生成模块确定原始语句对应的字级向量，字级向量生成模块将字级向量输入到文本纠错模型中第一长短时记忆网络，确定字级向量中各字符与相邻字符之间关联关系对应的特征向量，文本纠错模型中条件随机域模型，根据特征向量，确定原始语句各字符对应的目标分词，并确定该字符在目标分词中的位置，确定原始语句中各字符对应的分词标识；文本纠错模型中分词向量生成模块根据分词标识及预设的分词表，确定原始语句对应的分词向量；文本纠错模型中词级向量生成模块根据分词标识及预设的词级向量表，确定原始语句对应的词级向量；文本纠错模型中的拼接模块将字级向量、分词向量和词级向量进行拼接，确定原始语句对应的融合向量；文本纠错模型中的文本纠错解码模块根据融合向量，确定原始语句对应的目标纠错语句。在本申请实施例中，确定原始语句中各字符对应的分词标识，基于该分词标识，确定原始语句对应的分词向量和词级向量，并根据原始语句对应的字级向量、分词向量和词级向量进行拼接得到的融合向量，确定原始语句对应的目标纠错语句，能够有效的融合原始语句的字符信息、分词信息以及词级信息，从而使文本纠错模型明确获知词级信息，提高了文本纠错模型错字识别能力及错字纠错能力。

本文档来自技高网...

【技术保护点】

1.一种文本纠错方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述文本纠错模型还包括预处理模块，所述基于所述文本纠错模型的字级向量生成模块确定所述原始语句对应的字级向量，包括：

3.根据权利要求1所述的方法，其特征在于，所述文本纠错模型中分词向量生成模块根据所述分词标识及预设的分词表，确定所述原始语句对应的分词向量，包括：

4.根据权利要求1所述的方法，其特征在于，所述文本纠错模型中词级向量生成模块根据所述分词标识及预设的词级向量表，确定所述原始语句对应的词级向量，包括：

5.根据权利要求1所述的方法，其特征在于，所述文本纠错模型中的拼接模块将所述字级向量、分词向量和词级向量进行拼接，确定所述原始语句对应的融合向量，包括：

6.根据权利要求1所述的方法，其特征在于，所述文本纠错模型中的文本纠错解码模块根据所述融合向量，确定所述原始语句对应的目标纠错语句，包括：

7.根据权利要求6所述的方法，其特征在于，所述根据预设混淆集词表中保存的各字符与纠错特征值的对应关系，确定所述原始语句对应的纠错向量，包括：

8.根据权利要求6所述的方法，其特征在于，所述根据所述纠错向量和所述预测向量，确定所述原始语句对应的目标纠错语句，包括：

9.一种文本纠错装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-8任一所述文本纠错方法的步骤。

...

【技术特征摘要】

1.一种文本纠错方法，其特征在于，所述方法包括：

5.根据权利要求1所述的方法，其特征在于，所述文本纠错模型中的拼接模块将所述字级向量、分词向量和词级向量进行拼接，确定所述原始语句...

【专利技术属性】
技术研发人员：袁岩，刘微，孟卫明，刘秀美，宋一迪，刘鹏，张宁，
申请(专利权)人：海信集团控股股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人