一种语种识别的方法及装置制造方法及图纸

技术编号：14486380 阅读：199 留言：0更新日期：2017-01-26 20:28

本发明专利技术公开了一种语种识别的方法及装置，涉及语种识别技术领域；解决了电子文档中文字语种难以识别的技术问题；该技术方案包括：步骤一，分批次读取文字；步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及语种识别
，特别涉及一种语种识别的方法及装置。
技术介绍
随着科技的发展及国际化，人们工作中经常会接触到各语种的文件，因此语种识别成为当即需要解决的问题。
技术实现思路
本专利技术要解决的是电子文档中文字语种难以识别的技术问题。为了解决上述问题，本专利技术提供了一种语种识别的方法，包括：步骤一，分批次读取文字；步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。本专利技术还提供了一种语种识别的装置，包括：读取单元，分批次读取文字；语种识别单元，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；识别最终识别出来的一个字、一个词或是一个字符的语种。本专利技术的技术方案实现了一种语种识别的方法及装置，解决了多语种文档中文字识别难的技术问题，准确的识别出文档中的文字。分批次读取文字，可分分解较大文件，确保速度和准确度，节省识别时间。逐字递归读取判断，可以精确识别的精准度，减小误差。附图说明图1一种语种识别的方法示意图；图2一种语种识别的方法流程示意图；图3一种语种识别的装置示意图；图4一种语种识别的装置结构示意图。具体实施方式下面将结合附图及实施例对本专利技术的技术方案进行更详细的说明。需要说明的是，如果不冲突，本专利技术实施例以及实施例中的各个特征可以相互结合，均在本专利...
一种语种识别的方法及装置

【技术保护点】
一种语种识别的方法，其特征在于，包括：步骤一，分批次读取文字；步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。

【技术特征摘要】
1.一种语种识别的方法，其特征在于，包括：步骤一，分批次读取文字；步骤二，识别读入的是一个字还是一个字符，如果是一个字符，判断接下来读取的内容，是一个字或还是一个字符，递归读取判断，直到完整识别出是一个字符还是连续的字符即一个词；步骤三，识别最终识别出来的一个字、一个词或是一个字符的语种。2.如权利要求1所述的方法，其特征在于，所述步骤一之后，逐个字符的将读取到的文字过滤掉标点符号。3.如权利要求1所述的方法，其特征在于，记录读取的字、词或是字符及对应的语种。4.如权利要求3所述的方法，其特征在于，当全部读取完成，根据所述记录的信息，按语种统计出每个语种的字、词或是字符的数量。5.如权利要求4所述的方法，其特征在于，统计出数量最多的语种是主语种，其他语种为副语种。6.一种语种识别的装置，其特征在于，包括：读取单元，分批次...

【专利技术属性】
技术研发人员：程国艮，王建华，
申请(专利权)人：中译语通科技北京有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人