文本纠错方法、系统、计算机设备及可读存储介质技术方案

技术编号:27210552 阅读:35 留言:0更新日期:2021-01-31 12:46
本申请涉及一种文本纠错方法、系统、计算机设备和计算机可读存储介质,其中,该方法包括:数据获取步骤,用于获取待纠错文本数据;负样本构建步骤,用于创建一混淆字表并根据所述混淆字表将所述待纠错文本进行语料替换,生成负样本;文本纠错步骤,用于将所述待纠错文本数据及所述负样本数据作为训练数据,将所述训练数据的汉字特征和拼音特征分别经一Soft

【技术实现步骤摘要】
文本纠错方法、系统、计算机设备及可读存储介质


[0001]本申请涉及自然语言处理领域,特别是涉及文本纠错方法、系统、计算机设备和计算机可读存储介质。

技术介绍

[0002]中文纠错技术是实现中文语句自动检查、自动纠错的一项重要技术,其目的是提高语言正确性的同时减少人工校验成本。中文纠错技术主要根据字形相似来纠错,是自然语言处理领域检测一段文字是否存在错别字、以及将错别字纠正过来的技术,一般用于文本预处理阶段,同时能显著缓解智能客服等场景下信息获得不准确的问题,例如某些智能问答场景中错别字会影响query理解及对话效果。在通用领域中,中文文本纠错问题是从互联网起始时就一直在寻求解决的问题。在搜索引擎中,一个好的纠错系统能够用户输入的查询词进行纠错提示,或直接展示正确答案。
[0003]现有技术中,通过以下几种工具实现文本纠错:(1)错别字词典,构建领域错别字词典;(2)编辑距离,编辑距离采用类似字符串模糊匹配的方法,通过对照正确样本可以纠正部分常见错别字和语病;(3)语言模型,语言模型可以以字或词为纠错粒度。近几年,预训练语言模型开始流行本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本纠错方法,其特征在于,包括:数据获取步骤,用于获取待纠错文本数据;负样本构建步骤,用于创建一混淆字表并根据所述混淆字表将所述待纠错文本进行语料替换,生成负样本;文本纠错步骤,用于将所述待纠错文本数据及所述负样本数据作为训练数据,将所述训练数据的汉字特征和拼音特征分别经一Soft-Masked BERT预训练模型训练后拼接为训练结果,将所述训练结果经一Softmax层计算交叉熵损失并得到纠错结果。2.根据权利要求1所述的文本纠错方法,其特征在于,还包括模型优化步骤,用于通过递归预测及词表过滤对所述Soft-Masked BERT预训练模型进行优化。3.根据权利要求1所述的文本纠错方法,其特征在于,所述文本纠错步骤进一步包括:词向量获取步骤,用于将所述汉字特征和拼音特征分别经Soft-Masked BERT预训练模型训练,得到汉字的词向量和拼音的词向量;交叉熵损失获取步骤,用于将所述汉字的词向量和拼音的词向量进行拼接后,经一Softmax层计算所述训练数据中各个位置交叉熵损失之和并输出纠错结果。4.根据权利要求2所述的文本纠错方法,其特征在于,所述模型优化步骤进一步包括:递归预测步骤,用于将经所述文本纠错步骤得到的纠错后的句子再次输入所述Soft-Masked BERT预训练模型进行递归纠错;词表过滤步骤,用于对所述Soft-Masked BERT预训练模型中的词表进行过滤,使所述Soft-Masked BERT预训练模型纠错时的搜索词语数量≤1000。5.一种文本纠错系统,其特征在于,包括:数据获取模块,用于获取待纠错文本数据;负样本构建模块,用于创建一混淆字表并根据所述混淆字表将所述待纠错文本进行语料替换,生成负样本;...

【专利技术属性】
技术研发人员:陈倩倩景艳山郑悦
申请(专利权)人:北京明略软件系统有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利