一种语种识别的方法及装置制造方法及图纸

技术编号:14486380 阅读:199 留言:0更新日期:2017-01-26 20:28
本发明专利技术公开了一种语种识别的方法及装置,涉及语种识别技术领域;解决了电子文档中文字语种难以识别的技术问题;该技术方案包括:步骤一,分批次读取文字;步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。

【技术实现步骤摘要】

本专利技术涉及语种识别
,特别涉及一种语种识别的方法及装置
技术介绍
随着科技的发展及国际化,人们工作中经常会接触到各语种的文件,因此语种识别成为当即需要解决的问题。
技术实现思路
本专利技术要解决的是电子文档中文字语种难以识别的技术问题。为了解决上述问题,本专利技术提供了一种语种识别的方法,包括:步骤一,分批次读取文字;步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。本专利技术还提供了一种语种识别的装置,包括:读取单元,分批次读取文字;语种识别单元,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;识别最终识别出来的一个字、一个词或是一个字符的语种。本专利技术的技术方案实现了一种语种识别的方法及装置,解决了多语种文档中文字识别难的技术问题,准确的识别出文档中的文字。分批次读取文字,可分分解较大文件,确保速度和准确度,节省识别时间。逐字递归读取判断,可以精确识别的精准度,减小误差。附图说明图1一种语种识别的方法示意图;图2一种语种识别的方法流程示意图;图3一种语种识别的装置示意图;图4一种语种识别的装置结构示意图。具体实施方式下面将结合附图及实施例对本专利技术的技术方案进行更详细的说明。需要说明的是,如果不冲突,本专利技术实施例以及实施例中的各个特征可以相互结合,均在本专利技术的保护范围之内。另外,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。实施例一,一种语种识别的方法,如图1所示,包括:步骤一,分批次读取文字;读取文字为待识别的两种或是多种语言文档或一串文字。步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;根据一个编码库识别读入的是一个字还是一个字符,每个字、字符或是符合都对应一个唯一编码。步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。识别是通过语种识别模型实现的,语种识别模型是根据多种语言的大量单语语料训练出来的语言模型,能准确的识别出字、词或是句子的语种。识别过程:“大家好,我叫汤姆(TOM)”,这个句子,汉字部分,能直接根据编码库判断出来是一个个字,“TOM”部分,首先读取的是“T”,根据编码库判断,是一个字符,然后继续读取下一个“O”,再根据编码库判断,还是一个字符,继续读取下一个“M”,根据编码库判断,还是一个字符,继续读取下一个,下一个是符合了,算法则认为TOM是一个词。本技术方案解决了多语种文档中文字识别难的技术问题,准确的识别出文档中的文字。分批次读取文字,可分分解较大文件,确保速度和准确度,节省识别时间。逐字递归读取判断,可以精确识别的精准度,减小误差。实施例二,一种语种识别的方法,如图2所示,在实施例一的基础上。进一步包括:更优的,所述步骤一之后,逐个字符的将读取到的文字过滤掉标点符号。可以将读取的文字放到内存中;将读取的文字,逐个字符,通过标点符号算法,过滤掉标点符号;所述标点符号算法是通过查询标点符号编码库,来判断是否是符号的方法。通过此步骤,后续读取,不用再判断标点符号。更优的,记录读取的字、词或是字符及对应的语种。通过存储器容器记录传进来的字、词或是字符及对应的语种。更优的,当全部读取完成,根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。当整个文档或是一串文字全部读取完成,根据存储器中记录的语种,按语种统计出每个语种的字、词或是字符的数量,是通过计数器计算统计每个语种的字、词或是字符的数量的。更优的,统计出数量最多的语种是主语种,其他语种为副语种。本专利技术是解决了对于文件中或一段文字中,含有两种或多种语言,能识别出主语种,并根据主语种进行其他业务判断的应用场景;如翻译领域根据文件内容的主语种进行翻译报价,或是对一段文字中的主语种进行文字提取等。本专利技术读取过滤掉标点符号的字符串中的一个字或是一个字符,通过训练好的语种识别模型识别,完整的识别出一个字或一个词的语种,并把这个字或词及对应语种转向主副语种识别算法。能准确识别一段文本或文档(存在两种及以上的语言)中主副语种;能准确识别word、excel、txt常用文档格式中的语种;能够对大文件文档进行快速且准确的识别。实施例三,一种语种识别的装置,如图3所示,本实施例的装置与实施例一的方法一一对应。包括:读取单元,分批次读取文字;读取文字为待识别的两种或是多种语言文档或一串文字。语种识别单元,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;根据一个编码库识别读入的是一个字还是一个字符,每个字、字符或是符合都对应一个唯一编码。识别最终识别出来的一个字、一个词或是一个字符的语种。识别是通过语种识别模型实现的,语种识别模型是根据多种语言的大量单语语料训练出来的语言模型,能准确的识别出字、词或是句子的语种。识别过程:“大家好,我叫汤姆(TOM)”,这个句子,汉字部分,能直接根据编码库判断出来是一个个字,“TOM”部分,首先读取的是“T”,根据编码库判断,是一个字符,然后继续读取下一个“O”,再根据编码库判断,还是一个字符,继续读取下一个“M”,根据编码库判断,还是一个字符,继续读取下一个,下一个是符合了,算法则认为TOM是一个词。本技术方案解决了多语种文档中文字识别难的技术问题,准确的识别出文档中的文字。分批次读取文字,可分分解较大文件,确保速度和准确度,节省识别时间。逐字递归读取判断,可以精确识别的精准度,减小误差。实施例四,一种语种识别的装置,如图4所示,本实施例的装置与实施例二的方法一一对应。在实施例三的基础上。进一步包括:更优的,还包括标点符号过滤单元,所述读取单元,分批次读取文字之后,标点符号过滤单元逐个字符的将读取到的文字过滤掉标点符号。可以将读取的文字放到内存中;将读取的文字,逐个字符,通过标点符号算法,过滤掉标点符号;所述标点符号算法是通过查询标点符号编码库,来判断是否是符号的方法。通过此步骤,后续读取,不用再判断标点符号。更优的,还包括主副语种识别单元,主副语种识别单元记录读取的字、词或是字符及对应的语种。通过存储器容器记录传进来的字、词或是字符及对应的语种。更优的,当全部读取完成,主副语种识别单元根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。当整个文档或是一串文字全部读取完成,根据存储器中记录的语种,按语种统计出每个语种的字、词或是字符的数量,是通过计数器计算统计每个语种的字、词或是字符的数量的。更优的,统计出数量最多的语种是主语种,其他语种为副语种。本专利技术是解决了对于文件中或一段文字中,含有两种或多种语言,能识别出主语种,并根据主语种进行其他业务判断的应用场景;如翻译领域根据文件内容的主语种进行翻译报价,或是对一段文字中的主语种进行文字本文档来自技高网...
一种语种识别的方法及装置

【技术保护点】
一种语种识别的方法,其特征在于,包括:步骤一,分批次读取文字;步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。

【技术特征摘要】
1.一种语种识别的方法,其特征在于,包括:步骤一,分批次读取文字;步骤二,识别读入的是一个字还是一个字符,如果是一个字符,判断接下来读取的内容,是一个字或还是一个字符,递归读取判断,直到完整识别出是一个字符还是连续的字符即一个词;步骤三,识别最终识别出来的一个字、一个词或是一个字符的语种。2.如权利要求1所述的方法,其特征在于,所述步骤一之后,逐个字符的将读取到的文字过滤掉标点符号。3.如权利要求1所述的方法,其特征在于,记录读取的字、词或是字符及对应的语种。4.如权利要求3所述的方法,其特征在于,当全部读取完成,根据所述记录的信息,按语种统计出每个语种的字、词或是字符的数量。5.如权利要求4所述的方法,其特征在于,统计出数量最多的语种是主语种,其他语种为副语种。6.一种语种识别的装置,其特征在于,包括:读取单元,分批次...

【专利技术属性】
技术研发人员:程国艮王建华
申请(专利权)人:中译语通科技北京有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1