【技术实现步骤摘要】
本专利技术涉及数据处理技术,特别涉及文字识别和语音识别技术。
技术介绍
文字识别和语音识别技术已经被人们熟知和广泛使用。目前市场上可以买到文字识别工具,例如,有众多厂家和版本的OCR软件、手写识别系统等等;和语音识别软件,例如,有IBM公司的ViaVoiceTM、Microsoft的Office XPTM中的语音识别功能等等。在以往的文字和语音识别技术中,往往是根据字(word)的字形或发音特征(或者对于西文根据字母或单词字形或发音特征),进行识别从而提取出最接近的一个或多个候选字(或单词),然后由用户选择或自动选择形成识别结果。但是,由于自然语言中许多字/词的字形和发音非常接近、或者由于用户的发音或书写不清楚、作为被处理的原始图像或语音质量低等等原因,以往的文字和语音识别技术无法非常准确地进行识别,识别率都不是非常高。
技术实现思路
为此,本专利技术的一个方面,提供了一种提高文字识别的准确率的方法,包括文字识别得到一个字集串A1,A2,…,Ak,其中Ai={ai1,ai2,…,aini},aij是字,i=1,2,…,k,j=1,2,…,ni;根据语义单元表示树索 ...
【技术保护点】
一种提高文字识别的准确率的方法,包括:文字识别得到一个字集串A↓[1],A↓[2],…,A↓[k],其中A↓[i]={a↓[i1],a↓[i2],…,a↓[ini]},a↓[ij]是字,i=1,2,…,k,j=1,2,…,n↓[*];根据语义单元表示树索引库,为该字集串中每个字集A↓[i]中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集A↓[i]对应的语义单元表示树集B↓[i],其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元 ...
【技术特征摘要】
1.一种提高文字识别的准确率的方法,包括文字识别得到一个字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及将所述句义表达式展开。2.根据权利要求1所述的提高文字识别的准确率的方法,其特征在于当语义单元的语义表示中出现由虚量隔开的两个或多个实量时,将后面的实量也依次加入作为所述语义单元表示树索引库中的一个条目。3.根据权利要求1所述的提高文字识别的准确率的方法,其特征在于,对所述提取出的语义单元表示树集进行剪枝的步骤,包括根据所述提取出的语义单元表示树集中各个语义单元表示的实量,对所述提取出的语义单元表示树集剪枝;以及根据所述提取出的语义单元表示树集中各个语义单元表示的虚量,对所述提取出的语义单元表示树集剪枝。4.根据权利要求3所述的提高文字识别的准确率的方法,其特征在于,所述根据实量对所述提取出的语义单元表示树集剪枝的步骤,包括从所述提取出的语义单元表示树集中,将其实量与后续字集中的所有字都不匹配的分支去掉。5.根据权利要求3所述的提高文字识别的准确率的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树集剪枝的步骤,包括从所述提取出的语义单元表示树集中,将其虚量与对应部分中确定的语义单元的类型不匹配的分支去掉。6.根据权利要求5所述的提高文字识别的准确率的方法,其特征在于,所述从所述提取出的语义单元表示树集中将其虚量与对应部分中确定的语义单元的类型不匹配的分支去掉的步骤,包括从所述提取出的语义单元表示树集中,将在实量之前的虚量与对应部分的语义单元的类型不匹配的分支去掉;以及从所述提取出的语义单元表示树集中,将在实量之后的虚量与对应部分的语义单元的类型不匹配的分支去掉。7.根据权利要求6所述的提高文字识别的准确率的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树集剪枝的步骤,还包括当出现两个或多个连续的语义单元时进行类型流转换处理。8.根据权利要求1所述的提高文字识别的准确率的方法,其特征在于,所述求出句义表达式的步骤,包括将通过剩下的语义单元表示的代入能得到覆盖所述字集串的每个元素位置的句子的对应的语义单元进行相同的代入得到句义表达式。9.根据权利要求8所述的提高文字识别的准确率的方法,其特征在于,所述求出句义表达式的步骤,还包括如果剩下的语义单元表示的代入无法得到所述句子,则判断该字集串无解;以及如果剩下的语义单元表示的多个不同代入可以得到所述句子,则判断该字集串有多解。10.一种提高语音识别的准确率的方法,包括语音识别得到一个字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及将所述句义表达式展开。11.根据权利要求10所述的提高语音识别的准确率的方法,其特征在于当语义单元的语义表示中出现由虚量隔开的两个或多个实量时,将后面的实量也依次加入作为所述语义单元表示树索引库中的一个条目。12.根据权利要求10所述的提高语音识别的准确率的方法,其特征在于,对所述提取出的语义单元表示树集进行剪枝的步骤,包括根据所述提取出的语义单元表示树集中各个语义单元表示的实量,对所述提取出的语义单元表示树集剪枝;以及根据所述提取出的语义单元表示树集中各个语义单元表示的虚量,对所述提取出的语义单元表示树集剪枝。13.根据权利要求12所述的提高语音识别的准确率的方法,其特征在于,所述根据实量对所述提取出的语义单元表示树集剪枝的步骤,包括从所述提取出的语义单元表示树集中,将其实量与后续字集中的所有字都不匹配的分支去掉。14.根据权利要求12所述的提高语音识别的准确率的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树集剪枝的步骤,包括从所述提取出的语义单元表示树集中,将其虚量与对应部分中确定的语义单元的类型不匹配的分支去掉。15.根据权利要求14所述的提高语音识别的准确率的方法,其特征在于,所述从所述提取出的语义单元表示树集中将其虚量与对应部分中确定的语义单元的类型不匹配的分支去掉的步骤,包括从所述提取出的语义单元表示树集中,将在实量之前的虚量与对应部分的语义单元的类型不匹配的分支去掉;以及从所述提取出的语义单元表示树集中,将在实量之后的虚量与对应部分的语义单元的类型不匹配的分支去掉。16.根据权利要求15所述的提高语音识别的准确率的方法,其特征在于,所述根据虚量对所述提取出的语义单元表示树集剪枝的步骤,还包括当出现两个或多个连续的语义单元时进行类型流转换处理。17.根据权利要求10所述的提高语音识别的准确率的方法,其特征在于,所述求出句义表达式的步骤,包括将通过剩下的语义单元表示的代入能得到覆盖所述字集串的每个元素位置的句子的对应的语义单元进行相同的代入得到句义表达式。18.根据权利要求17所述的提高语音识别的准确率的方法,其特征在于,所述求出句义表达式的步骤,还包括如果剩下的语义单元表示的代入无法得到所述句子,则判断该字集串无解;以及如果剩下的语义单元表示的多个不同代入可以得到所述句子,则判断该字集串有多解。19.根据权利要求18所述的提高语音识别的准确率的方法,其特征在于,还包括如果上述判断为无解,保留上述剪枝剩下的语义单元,返回语音识别步骤,识别下一段语音并与上述剪枝剩下的语义单元一起重复前述剪枝和句义表达式生成步骤。20.一种自动翻译的方法,包括文字识别得到一个字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及用一个或多个目标语种的语义单元表示,将所述句义表达式展开。21.一种自动翻译的方法,包括语音识别得到一个字集串A1,A2,...,Ak,其中Ai={ai1,ai2,...,aini},aij是字,i=1,2,...,k,j=1,2,...,ni;根据语义单元表示树索引库,为该字集串中每个字集Ai中的每个字提取以该字为实量开始的语义单元表示树,构成与该字集Ai对应的语义单元表示树集Bi,其中所述语义单元表示树索引库是按照语义单元表示库中语义单元的语义表示中实量的顺序编制形成的;逐字集地对所述提取出的语义单元表示树集进行剪枝;根据所述语义单元表示树集中没有被剪掉的语义单元,求出句义表达式;以及用一个或多个目标语种的语义单元表示,将所述句义表达式展开。22.一种提高文字识别的准确率的装置,用于提高文字识别结果的准确率,所述文字识别结果包含一个字集串,该提高文字识别的准确率的装置包括语义单元表示树索引库,用于记录按照语义单元表示库中原始语种语义单元的表示中实量的顺序、为所述语义单元表示库编制的...
【专利技术属性】
技术研发人员:高小宇,高庆狮,
申请(专利权)人:高庆狮,高小宇,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。