一种文本形近字的检错与校对方法技术

技术编号:19903401 阅读:77 留言:0更新日期:2018-12-26 02:54
本发明专利技术涉及一种文本形近字的检错与校对方法,属于自然语言处理技术领域。首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N‑Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议。

【技术实现步骤摘要】
一种文本形近字的检错与校对方法
本专利技术涉及一种文本形近字的检错与校对方法,属于自然语言处理

技术介绍
当前,由于OCR文本识别技术的运用,在将纸质文本文字翻译成计算机文字时,经常会将一些文字识别错误,将其识别为它的形近字,而在大量文本中用人工校对的方法效率极低。利用分词工具将句子分解成词,再将词与词库对比判断,发现文本出现错误的位置的方法是一种常用的方法,但是对于分词来说分词的准确性对文本的检错起到了决定性的作用,在分词不能够做到准确的情况下,检错结果的正确率是极低的。
技术实现思路
本专利技术要解决的技术问题是提供一种文本形近字的检错与校对方法,用于解决文本检错对分词的依耐性、因分词不准确而带来的检错正确率低的问题。本专利技术的技术方案是:一种文本形近字的检错与校对方法,首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N-Gram语言模本文档来自技高网...

【技术保护点】
1.一种文本形近字的检错与校对方法,其特征在于:首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N‑Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议;具体步骤为:Step0.1、建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T;Step1、选取待处理样本句...

【技术特征摘要】
1.一种文本形近字的检错与校对方法,其特征在于:首先用汉字形近字库找出输入句子中每个字对应的形近字,并与原字符组成候选字向量;然后利用常用字库将向量中的不常用字清洗掉,将所有字的候选字向量组成一个候选矩阵;其次将候选矩阵中的相邻向量捆绑成词,将能组合成词语的向量压缩形成候选词向量,将不能成词的向量与停用字库对比,剔除非停用字;最后引入N-Gram语言模型对上述词进行组合,使关键词具有上下衔接关系,组成连接关系最强的句子,将句子与原句子对比找出原句子的错误及给出校对建议;具体步骤为:Step0.1、建立一个数据库,里面包含形近字库X,语料库Y,常用字库Q,停用词库T;Step1、选取待处理样本句子A;Step2、对句子A进行预处理,去除句子中的非字字符,得到新的字符串B=c1c2...cn,n为字符串B长度;Step3、将B=c1c2...cn中的每一个字,在形近字库X中,找出与之相似的形近字{cn1,cn2...cnm}作为cn的候选字,与cn的相似程度从左到右依次减少,并将候选字与常用字库Q对比,剔除不常用的字,并将cn与候选字一起组成候选字向量zn=[cncn1...cni],从而得到B的候选字矩阵B=z1z2...zn;Step4、将相邻两个候选字向量中的字排列组合,判断组合的词语是否存在语料库Y中,若存在则说明两个向量捆绑成词,若没有捆绑成词,将判断是否属于停用词库T中,如果不存在则把这个字剔除,得到B的候选词向量矩阵B'=B1'B2'…Bn',其中B'n=[wiw2…wi],n为字符串B长度,i取决于相邻两个字向量组合成词的个数或者是某个向量去除非停用词后的个数;Step5、将Step4中得出来的结果B'nB'n+1中的词排列组合,用马尔可夫模型计算出相邻两个词同时出现的概率p(w1w2),概率越大表示其连接关系越强,将所有概率最大的词组合成一个新句子...

【专利技术属性】
技术研发人员:邵玉斌王林坪龙华杜庆治
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1