【技术实现步骤摘要】
一种中文文本纠错方法及系统
本专利技术涉及自然语言处理
,特别是涉及一种中文文本纠错方法及系统。
技术介绍
中文文本往往包含各种错误,比如形近字错误、同音字错误、术语类错误、语义错误、成语或歇后语错误等等。在一些比较重要的场合,有误的文档将造成重大损失,人工纠错效率低下、面对大量文本将会消耗大量时间。中文文本纠错的技术难点:(1)命名实体识别的准确度:针对一些规则类错误,需要构建相应领域的词典,如领导人姓名校对,需要提供能实时更新的领导人姓名与职位对应信息,但由于信息更新比较频繁且职务变动频率较高的原因,存在因同步信息而导致的差异性报错。(2)中文语法规则复杂:标准汉语语法中最大的特点是没有严格意义的形态变化。名词没有格的变化,也没有性和数的区别。动词不分人称,也没有时态。这一不同于欧洲语言的特点,使得在历史上很长一段时间内,汉语被很多语言学家认为没有语法也没有词类。正是由于中文的这种文无定法之论,反而导致中文纠错较大从而可能会出现误报的情况。(3)中文汉字一词多义问题:中文汉字往往出现一词多义 ...
【技术保护点】
1.一种中文文本纠错方法,其特征在于,包括:/n获取待纠错文本;/n根据统计语言N-gram模型确定所述待纠错文本中的错误词语以及错误词语位置;/n基于所述错误词语以及所述错误词语位置,利用双向长短期记忆LSTM模型确定第一候选语句集合;/n将所述待纠错文本转换成拼音序列;/n基于所述拼音序列,利用所述N-gram模型确定第二候选语句;/n对比所述第一候选语句集合内所有的第一候选语句的困惑度以及所述第二候选语句的困惑度,确定困惑度最低的语句为纠错后的文本。/n
【技术特征摘要】
1.一种中文文本纠错方法,其特征在于,包括:
获取待纠错文本;
根据统计语言N-gram模型确定所述待纠错文本中的错误词语以及错误词语位置;
基于所述错误词语以及所述错误词语位置,利用双向长短期记忆LSTM模型确定第一候选语句集合;
将所述待纠错文本转换成拼音序列;
基于所述拼音序列,利用所述N-gram模型确定第二候选语句;
对比所述第一候选语句集合内所有的第一候选语句的困惑度以及所述第二候选语句的困惑度,确定困惑度最低的语句为纠错后的文本。
2.根据权利要求1所述的中文文本纠错方法,其特征在于,所述根据统计语言N-gram模型确定所述待纠错文本中的错误词语以及错误词语位置,之前还包括:
采集原始网页,并对所述原始网页进行预处理,确定中文文本语料库,形成语料库词典;
利用分词器对所述语料库词典中的文本进行分词处理,确定多个分词后的文本;
统计所有所述分词后的文本的个数以及任意两个词的共现频率;
根据所述共现频率构建N-gram模型。
3.根据权利要求1所述的中文文本纠错方法,其特征在于,所述基于所述错误词语以及所述错误词语位置,利用双向长短期记忆LSTM模型确定第一候选语句集合,具体包括:
利用词向量工具,将所述分词后的文本转换为词向量矩阵;
将所述词向量矩阵作为LSTM模型的输入,利用前向传播算法和延时反向传播算法对LSTM模型进行训练,构建训练好后的LSTM模型;
将所述语料库词典中的字逐个代入所述待纠错文本中的错误词语位置,确定代入后的文本;
将所述代入后的文本输入至所述训练好后的LSTM模型,输出所述语料库词典中每个字在所述错误词语位置处的出现概率,并按照所述出现概率从小到大的顺序对所述代入后的文本进行排序,确定第一候选语句列表;
基于所述错误词语,根据所述第一候选语句列表确定第一候选语句集合。
4.根据权利要求3所述的中文文本纠错方法,其特征在于,所述基于所述错误词语,根据所述第一候选语句列表确定第一候选语句集合,具体包括:
判断所述错误词语是否存在于所述第一候选语句列表中,得到第一判断结果;
若所述第一判断表示为所述错误词语存在于所述第一候选语句列表中,确定所述待纠错文本正确;
若所述第一判断表示为所述错误词语不存在于所述第一候选语句列表中,从所述第一候选语句集合中筛选出与所述错误词语的同音字和近音字,并根据所述同音字和所述近音字确定第二候选语句列表;
将所述第二候选语句列表中的字逐个代入所述待纠错文本中的错误词语位置,确定第一候选语句集合。
5.根据权利要求1所述的中文文本纠错方法,其特征在于,所述基于所述拼音序列,利用所述N-gram模型确定第二候选语句,具体包括:
基于所述拼音序列,将所述语料库词典中的文本,按照拼音在所述待纠错文本的位置,构建多条候选语句;
利用所述N-gram模型确定所述多条候选语句的概率,并将概率最大的候选语句作为所述第二候选语句。
6.一种中文文本纠错系统,其特征在于,包括:
待纠错文本获取模块,用于获取待纠错文本;
错误词语以及错误词语位置确定模块,用于根据统计语言N-gra...
【专利技术属性】
技术研发人员:钱宝生,杨军,曾擂,王滨,干家东,
申请(专利权)人:中国电子科技集团公司第十五研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。