基于深度学习模型的文本纠错方法及系统技术方案

技术编号:24685318 阅读:38 留言:0更新日期:2020-06-27 08:28
本发明专利技术公开一种基于深度学习模型的文本纠错方法及系统,其中,该方法包括步骤:利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;将不存在错误字的语句直接输出,同时输出判断结果;或者,将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句,该方法既保证了错误定位和错误纠正的正确率,又防止因错误纠正模型未能正确识别错误字而导致的错误修改。该系统采用上述基于深度学习模型的文本纠错方法,提高了文本纠错的可靠性和正确率。

Text error correction method and system based on deep learning model

【技术实现步骤摘要】
基于深度学习模型的文本纠错方法及系统
本专利技术人工智能自然语言处理(NLP)领域,尤其涉及基于深度学习模型的文本纠错方法及系统。
技术介绍
文本纠错是一种自动化文本校正技术,包括谐音字词的校正(例如“配副眼睛”修改为“配副眼镜”)和形近字词的修改(例如“高梁”修改为“高粱”)等,电商文本纠错是针对电商类文字信息,比如商品推荐文案,客服问答等的纠正技术。文本纠错目前会采用单模型和多模型两套不同的方式,由于多模型存在计算消耗大、语料需求大等问题,因此实际应用中单模型应用场景较为广泛。如图1所示,现有技术中单模型文本纠错常采用的算法逻辑为:1、错误定位:这一步常采用阈值判断来解决;2、困惑集替换:根据所有的音近字形近字表,进行错字替换;3、纠错:对替换后的句子进行打分,采用得分高者替换字。但是上述的单模型方法在实际应用中存在一些不足:1、错误定位:常使用ngram进行错误定位(常用bigram和trigram),但是该方法产生的配置文件(字符串概率字典表)将是巨大的,非常影响模型的上线和使用。除此之外,阈值的确定需要在得到字符串概率字典表后,经过多次试验取舍才能得到一个合适的阈值区间,并且针对不同领域的语料需要确定不同的阈值,以上这些体现出阈值定位错误的不可靠性和差鲁棒性。2、困惑集替换:采用困惑集里的字符串进行替换,但是该步骤常用的问题是替换字表未必全,可能不包含正确字,或者没有该字的替换字表,造成错误不能纠正。3、纠错:评分步骤,这一步中,可能替换前是一个常用词,替换后也是一个常用词,这样两者的得分就是相同的,或者如果包含错别字的词组频率是更高的,那么得分也就是更高的,这样就没有考虑到上下文语境,会进一步造成错误不能纠正或者正确字误纠正的情况。
技术实现思路
本专利技术的目的在于提供基于深度学习模型的文本纠错方法及系统,以提高文本纠错的可靠性和正确率。为了实现上述目的,本专利技术提供如下技术方案:一种基于深度学习模型的文本纠错方法,包括步骤:利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;将不存在错误字的语句直接输出,同时输出判断结果;或者,将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。优选地,所述错误定位模型采用bilstm+crf模型;所述错误纠正模型采用seq2seq模型。具体地,判断用户输入的语句是否存在错误字同时获取所述错误字的位置索引的方法包括:接收用户输入的语句,并将所述语句转换为字索引;将转换为字索引的语句输入训练完成的bilstm+crf模型;利用bilstm+crf模型判断所述语句是否存在错误字,同时获取所述错误字的位置索引。进一步地,所述bilstm+crf模型的训练方法包括:构建用于训练bilstm+crf模型的第一训练语料库;将第一训练语料库中的每条语句及其错误位置索引对应地输入至bilstm+crf模型中;采用预设的错误查全率和错误查准率对bilstm+crf模型进行评价,直至bilstm+crf模型的错误查全率和错误查准率都达到合格阈值。优选地,所述预设的错误查准率为错误位置判断正确的语句数量与所有判断含有错误位置的语句数量之比;所述预设的错误查全率为所有判断含有错误的语句数量与所有实际含有错误的语句数量之比。较佳地,如果bilstm+crf模型判断用户输入的语句存在错误字,则将语句输入训练完成的seq2seq模型以得到修改后的语句;对比修改后语句与用户输入语句,以获取被修改字的位置索引;判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。具体地,训练seq2seq模型的方法包括:构建用于训练seq2seq模型的第二训练语料库;将第二训练语料库中的每一条待修改语句及正确语句一一对应地输入至seq2seq模型中;采用预设的修改正确率和修改查全率对seq2seq模型进行评价,直至seq2seq模型的修改正确率和修改查全率都达到合格阈值。进一步地,所述修改正确率为修改正确的语句数量与所有修改的语句数量之比;所述修改查全率为所有修改的语句数量与所有含有错误的语句数量之比。一种基于深度学习模型的文本纠错系统,包括查错模块和修正模块,所述修正模块包括修改单元和判断单元,其中,所述查错模块利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引,并将不存在错误字的语句直接输出;所述修正模块的修改单元用于将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引;所述修正模块的判断单元用于判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述任一权利要求1-8所述基于深度学习模型的文本纠错方法。与现有技术相比,本专利技术提供的基于深度学习模型的文本纠错方法及系统具有以下有益效果:本专利技术提供的基于深度学习模型的文本纠错方法,利用专门的错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引,以保证错误定位的正确率;将不存在错误字的语句直接输出,或者,将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句,以防止因错误纠正模型未能正确识别错误字而导致的错误修改,进一步提高文本纠错的可靠性和正确率。本专利技术提供的基于深度学习模型的文本纠错系统,采用上述基于深度学习模型的文本纠错方法,提高了文本纠错的可靠性和正确率。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为现有技术中单模型文本纠错常采用的算法逻辑;图2为本专利技术实施例提供的一种基于深度学习模型的文本纠错方法流程示意图;图3为本专利技术实施例中bilstm+crf模型的训练方法流程示意图;图4为本专利技术实施例中seq2seq模型的训练方法流程示意图;图5为本专利技术实施例中一种电子设备的结构示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够本文档来自技高网
...

【技术保护点】
1.一种基于深度学习模型的文本纠错方法,其特征在于,包括步骤:/n利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;/n将不存在错误字的语句直接输出,同时输出判断结果;或者,/n将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。/n

【技术特征摘要】
1.一种基于深度学习模型的文本纠错方法,其特征在于,包括步骤:
利用错误定位模型判断用户输入的语句是否存在错误字,同时获取所述错误字的位置索引;
将不存在错误字的语句直接输出,同时输出判断结果;或者,
将存在错误字的语句输入错误纠正模型以得到修改后的语句,同时获取被修改字的位置索引,判断被修改字的位置索引与错误字的位置索引是否一致,如果一致,输出修改后的语句,如果不一致,输出修改前的语句。


2.根据权利要求1所述的基于深度学习模型的文本纠错方法,其特征在于,所述错误定位模型采用bilstm+crf模型;
所述错误纠正模型采用seq2seq模型。


3.根据权利要求2所述的基于深度学习模型的文本纠错方法,其特征在于,判断用户输入的语句是否存在错误字同时获取所述错误字的位置索引的方法包括:
接收用户输入的语句,并将所述语句转换为字索引;
将转换为字索引的语句输入训练完成的bilstm+crf模型;
利用bilstm+crf模型判断所述语句是否存在错误字,同时获取所述错误字的位置索引。


4.根据权利要求2或3所述的基于深度学习模型的文本纠错方法,其特征在于,所述bilstm+crf模型的训练方法包括:
构建用于训练bilstm+crf模型的第一训练语料库;
将第一训练语料库中的每条语句及其错误位置索引对应地输入至bilstm+crf模型中;
采用预设的错误查全率和错误查准率对bilstm+crf模型进行评价,直至bilstm+crf模型的错误查全率和错误查准率都达到合格阈值。


5.根据权利要求4所述的基于深度学习模型的文本纠错方法,其特征在于,所述预设的错误查准率为错误位置判断正确的语句数量与所有判断含有错误位置的语句数量之比;
所述预设的错误查全率为所有判断含有错误的语句数量与所有实际含有错误的语句数量之比。


6.根据权利要求2所述的基于深度学习模型的文本纠错方法,其特征在于,如果bilstm...

【专利技术属性】
技术研发人员:蒋倩雯沈艺许加书张森张兵兵
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1