基于深度学习模型的文本纠错方法及系统技术方案

技术编号：24685318 阅读：38 留言：0更新日期：2020-06-27 08:28

本发明专利技术公开一种基于深度学习模型的文本纠错方法及系统，其中，该方法包括步骤：利用错误定位模型判断用户输入的语句是否存在错误字，同时获取所述错误字的位置索引；将不存在错误字的语句直接输出，同时输出判断结果；或者，将存在错误字的语句输入错误纠正模型以得到修改后的语句，同时获取被修改字的位置索引，判断被修改字的位置索引与错误字的位置索引是否一致，如果一致，输出修改后的语句，如果不一致，输出修改前的语句，该方法既保证了错误定位和错误纠正的正确率，又防止因错误纠正模型未能正确识别错误字而导致的错误修改。该系统采用上述基于深度学习模型的文本纠错方法，提高了文本纠错的可靠性和正确率。

Text error correction method and system based on deep learning model

全部详细技术资料下载

【技术实现步骤摘要】
基于深度学习模型的文本纠错方法及系统
本专利技术人工智能自然语言处理(NLP)领域，尤其涉及基于深度学习模型的文本纠错方法及系统。
技术介绍
文本纠错是一种自动化文本校正技术，包括谐音字词的校正(例如“配副眼睛”修改为“配副眼镜”)和形近字词的修改(例如“高梁”修改为“高粱”)等，电商文本纠错是针对电商类文字信息，比如商品推荐文案，客服问答等的纠正技术。文本纠错目前会采用单模型和多模型两套不同的方式，由于多模型存在计算消耗大、语料需求大等问题，因此实际应用中单模型应用场景较为广泛。如图1所示，现有技术中单模型文本纠错常采用的算法逻辑为：1、错误定位：这一步常采用阈值判断来解决；2、困惑集替换：根据所有的音近字形近字表，进行错字替换；3、纠错：对替换后的句子进行打分，采用得分高者替换字。但是上述的单模型方法在实际应用中存在一些不足：1、错误定位：常使用ngram进行错误定位(常用bigram和trigram)，但是该方法产生的配置文件(字符串概率字典表)将是巨大的，非常影响模型的上线和使用。除此之外，阈值的确定需要在得到字符串概率字典表后，经过多次试验取舍才能得到一个合适的阈值区间，并且针对不同领域的语料需要确定不同的阈值，以上这些体现出阈值定位错误的不可靠性和差鲁棒性。2、困惑集替换：采用困惑集里的字符串进行替换，但是该步骤常用的问题是替换字表未必全，可能不包含正确字，或者没有该字的替换字表，造成错误不能纠正。3、纠错：评分步骤，这一步中，可能替...

【技术保护点】
1.一种基于深度学习模型的文本纠错方法，其特征在于，包括步骤：/n利用错误定位模型判断用户输入的语句是否存在错误字，同时获取所述错误字的位置索引；/n将不存在错误字的语句直接输出，同时输出判断结果；或者，/n将存在错误字的语句输入错误纠正模型以得到修改后的语句，同时获取被修改字的位置索引，判断被修改字的位置索引与错误字的位置索引是否一致，如果一致，输出修改后的语句，如果不一致，输出修改前的语句。/n

【技术特征摘要】
1.一种基于深度学习模型的文本纠错方法，其特征在于，包括步骤：
利用错误定位模型判断用户输入的语句是否存在错误字，同时获取所述错误字的位置索引；
将不存在错误字的语句直接输出，同时输出判断结果；或者，
将存在错误字的语句输入错误纠正模型以得到修改后的语句，同时获取被修改字的位置索引，判断被修改字的位置索引与错误字的位置索引是否一致，如果一致，输出修改后的语句，如果不一致，输出修改前的语句。

2.根据权利要求1所述的基于深度学习模型的文本纠错方法，其特征在于，所述错误定位模型采用bilstm+crf模型；
所述错误纠正模型采用seq2seq模型。

3.根据权利要求2所述的基于深度学习模型的文本纠错方法，其特征在于，判断用户输入的语句是否存在错误字同时获取所述错误字的位置索引的方法包括：
接收用户输入的语句，并将所述语句转换为字索引；
将转换为字索引的语句输入训练完成的bilstm+crf模型；
利用bilstm+crf模型判断所述语句是否存在错误字，同时获取所述错误字的位置索引。

4.根据权利要求2或3所述的基于深度学习模型的文本纠错方法，其特征在于，所述bilstm+crf模型的训练方法包括：
构建用于训练bilstm+crf模型的第一训练语料库；
将第一训练语料库中的每条语句及其错误位置索引对应地输入至bilstm+crf模型中；
采用预设的错误查全率和错误查准率对bilstm+crf模型进行评价，直至bilstm+crf模型的错误查全率和错误查准率都达到合格阈值。

5.根据权利要求4所述的基于深度学习模型的文本纠错方法，其特征在于，所述预设的错误查准率为错误位置判断正确的语句数量与所有判断含有错误位置的语句数量之比；
所述预设的错误查全率为所有判断含有错误的语句数量与所有实际含有错误的语句数量之比。

6.根据权利要求2所述的基于深度学习模型的文本纠错方法，其特征在于，如果bilstm...

【专利技术属性】
技术研发人员：蒋倩雯，沈艺，许加书，张森，张兵兵，
申请(专利权)人：苏宁云计算有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人