拼写检查模型生成方法、装置、计算设备及存储介质制造方法及图纸

技术编号：42306032 阅读：23 留言：0更新日期：2024-08-14 15:52

本申请公开了一种拼写检查模型生成方法、装置、计算设备及存储介质，该方法包括：根据公开的第一字混淆集及第一语料数据集构建第二字混淆集；根据输入法构建的第二语料数据集及第一语料数据集构建词混淆集；从训练文本集中的原训练文本中随机采样确定多个待掩码字符及至少一个待掩码词语；基于预设混合掩码策略，利用第二字混淆集对多个待掩码字符进行掩码处理以及利用词混淆集对至少一个待掩码词语进行掩码处理，得到增强训练文本；基于原训练文本及增强训练文本进行模型训练，生成拼写检查模型。本申请实现了自动生成训练所需的增强训练样本，克服了中文拼写检查数据不足的问题，减少了人力标注成本，同时也大大提升了拼写检查模型的准确度。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及互联网，具体涉及一种拼写检查模型生成方法、装置、计算设备及存储介质。

技术介绍

1、中文拼写检查(csc)是一项基础的自然语言处理任务，通过学习上下文信息检测和纠正中文句子中潜在的字符替换错误，保证文章的准确性和流畅性。由于早期的csc研究任务缺乏标注语料，大多采用无监督的n-gram统计语言模型方法。现有的csc研究任务大多将其视为一个序列标记任务，通过字混淆集构建伪数据句子对，使用lstm、transformer、bert等深度学习模型学习输入序列的语义表征。使用字混淆集构建数据集进行模型训练，会导致模型记忆混淆集相关错误和正确字符之间的映射，最终的纠错将过度受限于混淆集，无法纠正训练集中未出现的不相似音、形的字，忽略整个句子的语义。并且中文经过分词之后通常都是二个字以上组成的词、短语或者成语等，忽略了中文句子分词后通常都是词的特征，训练集中缺少易混淆词数据。

技术实现思路

1、鉴于上述问题，提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的拼写检查模型生成方法...

【技术保护点】

1.一种拼写检查模型生成方法，包括：

2.根据权利要求1所述的方法，其中，所述根据公开的第一字混淆集及第一语料数据集构建第二字混淆集进一步包括：

3.根据权利要求2所述的方法，其中，所述生成S1所保留字中的各个字对应的字形结构和/或拼音序列，根据字形结构和/或拼音序列计算S1所保留字中的每个字与其它任一字之间的编辑距离进一步包括：

4.根据权利要求2或3所述的方法，其中，所述方法还包括：若S1所保留字中的任一字包含有预设音节，则获取拼音序列中包含与所述预设音节成对的相似音节的字作为易混淆字，形成第二易混淆字对。

5.根据权利要求1-3中任一...

【技术特征摘要】

1.一种拼写检查模型生成方法，包括：

2.根据权利要求1所述的方法，其中，所述根据公开的第一字混淆集及第一语料数据集构建第二字混淆集进一步包括：

3.根据权利要求2所述的方法，其中，所述生成s1所保留字中的各个字对应的字形结构和/或拼音序列，根据字形结构和/或拼音序列计算s1所保留字中的每个字与其它任一字之间的编辑距离进一步包括：

4.根据权利要求2或3所述的方法，其中，所述方法还包括：若s1所保留字中的任一字包含有预设音节，则获取拼音序列中包含与所述预设音节成对的相似音节的字作为易混淆字，形成第二易混淆字对。

5.根据权利要求1-3中任一项所述的方法，其中，所述第二语料数据集包括：第二语料数据对；

...

【专利技术属性】
技术研发人员：王敏，余栋，李宏亮，周卓，柴成茁，靳国庆，
申请(专利权)人：人民网股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人