【技术实现步骤摘要】
本申请涉及互联网,具体涉及一种拼写检查模型生成方法、装置、计算设备及存储介质。
技术介绍
1、中文拼写检查(csc)是一项基础的自然语言处理任务,通过学习上下文信息检测和纠正中文句子中潜在的字符替换错误,保证文章的准确性和流畅性。由于早期的csc研究任务缺乏标注语料,大多采用无监督的n-gram统计语言模型方法。现有的csc研究任务大多将其视为一个序列标记任务,通过字混淆集构建伪数据句子对,使用lstm、transformer、bert等深度学习模型学习输入序列的语义表征。使用字混淆集构建数据集进行模型训练,会导致模型记忆混淆集相关错误和正确字符之间的映射,最终的纠错将过度受限于混淆集,无法纠正训练集中未出现的不相似音、形的字,忽略整个句子的语义。并且中文经过分词之后通常都是二个字以上组成的词、短语或者成语等,忽略了中文句子分词后通常都是词的特征,训练集中缺少易混淆词数据。
技术实现思路
1、鉴于上述问题,提出了本申请以便提供一种克服上述问题或者至少部分地解决上述问题的拼写检查模型生成方法
...【技术保护点】
1.一种拼写检查模型生成方法,包括:
2.根据权利要求1所述的方法,其中,所述根据公开的第一字混淆集及第一语料数据集构建第二字混淆集进一步包括:
3.根据权利要求2所述的方法,其中,所述生成S1所保留字中的各个字对应的字形结构和/或拼音序列,根据字形结构和/或拼音序列计算S1所保留字中的每个字与其它任一字之间的编辑距离进一步包括:
4.根据权利要求2或3所述的方法,其中,所述方法还包括:若S1所保留字中的任一字包含有预设音节,则获取拼音序列中包含与所述预设音节成对的相似音节的字作为易混淆字,形成第二易混淆字对。
5.根据
...【技术特征摘要】
1.一种拼写检查模型生成方法,包括:
2.根据权利要求1所述的方法,其中,所述根据公开的第一字混淆集及第一语料数据集构建第二字混淆集进一步包括:
3.根据权利要求2所述的方法,其中,所述生成s1所保留字中的各个字对应的字形结构和/或拼音序列,根据字形结构和/或拼音序列计算s1所保留字中的每个字与其它任一字之间的编辑距离进一步包括:
4.根据权利要求2或3所述的方法,其中,所述方法还包括:若s1所保留字中的任一字包含有预设音节,则获取拼音序列中包含与所述预设音节成对的相似音节的字作为易混淆字,形成第二易混淆字对。
5.根据权利要求1-3中任一项所述的方法,其中,所述第二语料数据集包括:第二语料数据对;
...
【专利技术属性】
技术研发人员:王敏,余栋,李宏亮,周卓,柴成茁,靳国庆,
申请(专利权)人:人民网股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。