一种确定字符集的方法和装置制造方法及图纸

技术编号:23149271 阅读:62 留言:0更新日期:2020-01-18 13:32
本发明专利技术公开了一种确定字符集的方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:对待解码的文本数据采用多种字符集进行解码;确定每种字符集对所述文本数据解码生成字符的个数;将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。该实施方式克服了现有技术在利用多种字符集解码时无法处理编码交集、或确定字符集的效率低的技术问题,达到快速、准确地确定文本数据的字符集的技术效果。

A method and device for determining character set

【技术实现步骤摘要】
一种确定字符集的方法和装置
本专利技术涉及计算机
,尤其涉及一种确定字符集的方法和装置。
技术介绍
为了方便字符的存储和传输,现有技术定义了多种字符集以及对应的编码方式用于编码。其中,解码是与编码所用的字符集和编码方式对应的。但是在一些特殊情况下,编码后的文本数据接收方没有获知输入文本的编码方式和字符集,则需要判断所述文本数据的字符集或编码方式。在实现本专利技术过程中,专利技术人发现现有技术中至少存在如下问题:1.不同字符集之间存在交集,所以对于交集部分之内的字符进行解码时,不同字符集均可以解码,但解码后的含义不同、可能存在歧义,导致没有获知编码方式或字符集的文本数据在解码时准确率低;2.现有技术在判断字符集时,需要对现有技术中常用的字符集或编码方式进行比对,确定相应的字符集,导致确定字符集的速度慢、效率低。
技术实现思路
有鉴于此,本专利技术实施例提供一种确定字符集的方法和装置,能够在没有获知文本数据的编码方式或字符集时快速、准确地确定文本数据的字符集。为实现上述目的,根据本专利技术实施例的一个方面,提供了一种确定字符集的方法,包括:对待解码的文本数据采用多种字符集进行解码;确定每种字符集对所述文本数据解码生成字符的个数;将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。可选地,将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集之后,包括:判断是否出现识别错误;若出现识别错误,则舍弃识别错误的字符集,重新确定文本数据对应的字符集。可选地,判断是否出现识别错误,包括:根据语义分析判断是否出现识别错误;或,根据文本数据解码后是否出现属于特定字符集的字符判断是否出现识别错误。可选地,根据语义分析判断是否出现识别错误,包括:判断多个字符集对文本数据可以解码的交集部分的解码结果是否能够表达含义;若不能表达含义,则确定出现识别错误;或,根据所述交集部分的解码结果与其他解码后的上下文之间语义的联系,判断是否出现识别错误;若不存在联系,则确定出现识别错误;或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析;若生成字符个数最多的解码结果语义无效,则确定出现识别错误。可选地,所述重新确定文本数据对应的字符集,包括:若一个字符集对所述交集部分解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集;或,若一个字符集对所述交集部分解码后能够与其他解码后的上下文之间存在语义联系,则确定所述字符集为文本数据对应的字符集;或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析,当确定一个字符集对文本数据解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集。可选地,对所述文本数据采用多种字符集进行解码,包括:利用多线程,对所述文本数据采用多种字符集进行解码;其中,每种字符集分别采用一个线程对文本数据进行解码。根据本专利技术实施例的另一个方面,提供一种确定字符集的装置,其特征在于,包括:解码模块,用于对待解码的文本数据采用多种字符集进行解码;字符个数确定模块,用于确定每种字符集对所述文本数据解码生成字符的个数;字符集确定模块,用于将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。可选地,还包括识别错误校正模块,用于将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集之后,判断是否出现识别错误;若出现识别错误,则舍弃识别错误的字符集,重新确定文本数据对应的字符集。可选地,判断是否出现识别错误,包括:根据语义分析判断是否出现识别错误;或,根据文本数据解码后是否出现属于特定字符集的字符判断是否出现识别错误。可选地,根据语义分析判断是否出现识别错误,包括:判断多个字符集对文本数据可以解码的交集部分的解码结果是否能够表达含义;若不能表达含义,则确定出现识别错误;或,根据所述交集部分的解码结果与其他解码后的上下文之间语义的联系,判断是否出现识别错误;若不存在联系,则确定出现识别错误;或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析;若生成字符个数最多的解码结果语义无效,则确定出现识别错误。可选地,所述重新确定文本数据对应的字符集,包括:若一个字符集对所述交集部分解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集;或,若一个字符集对所述交集部分解码后能够与其他解码后的上下文之间存在语义联系,则确定所述字符集为文本数据对应的字符集;或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析,当确定一个字符集对文本数据解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集。可选地,对所述文本数据采用多种字符集进行解码,包括:利用多线程,对所述文本数据采用多种字符集进行解码;其中,每种字符集分别采用一个线程对文本数据进行解码。根据本专利技术实施例的另一个方面,提供一种情绪判断的电子设备,包括:一个或多个处理器;存储装置,用于存储一个或多个程序,当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现本专利技术确定字符集的方法。根据本专利技术实施例的另一个方面,提供一种计算机可读介质,其上存储有计算机程序,程序被处理器执行时实现本专利技术确定字符集的方法。上述专利技术中的一个实施例具有如下优点或有益效果:本专利技术通过采用对文本数据解码产生的字符个数最多的字符集,确定为该文本数据对应的字符集的技术手段,克服了现有技术在利用多种字符集解码时无法处理编码交集、或确定字符集的效率低的技术问题,进而达到没有获知文本数据的编码方式或字符集时快速、准确地确定文本数据的字符集的技术效果。上述的非惯用的可选方式所具有的进一步效果将在下文中结合具体实施方式加以说明。附图说明附图用于更好地理解本专利技术,不构成对本专利技术的不当限定。其中:图1是根据本专利技术实施例的确定字符集的方法的主要流程的示意图;图2是表示三种字符集的编码范围存在交集的示意图;图3是根据本专利技术实施例的确定字符集的装置的主要模块的示意图;图4是本专利技术实施例可以应用于其中的示例性系统架构图;图5是适于用来实现本专利技术实施例的终端设备或服务器的计算机系统的结构示意图。具体实施方式以下结合附图对本专利技术的示范性实施例做出说明,其中包括本专利技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本专利技术的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。图1是根据本专利技术实施例本文档来自技高网...

【技术保护点】
1.一种确定字符集的方法,其特征在于,包括:/n对待解码的文本数据采用多种字符集进行解码;/n确定每种字符集对所述文本数据解码生成字符的个数;/n将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。/n

【技术特征摘要】
1.一种确定字符集的方法,其特征在于,包括:
对待解码的文本数据采用多种字符集进行解码;
确定每种字符集对所述文本数据解码生成字符的个数;
将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集。


2.根据权利要求1所述的方法,其特征在于,将所述解码生成字符个数最多的字符集设置为所述文本数据对应的字符集之后,包括:
判断是否出现识别错误;
若出现识别错误,则舍弃识别错误的字符集,重新确定文本数据对应的字符集。


3.根据权利要求2所述的方法,其特征在于,判断是否出现识别错误,包括:
根据语义分析判断是否出现识别错误;
或,根据文本数据解码后是否出现属于特定字符集的字符判断是否出现识别错误。


4.根据权利要求3所述的方法,其特征在于,根据语义分析判断是否出现识别错误,包括:
判断多个字符集对文本数据可以解码的交集部分的解码结果是否能够表达含义;若不能表达含义,则确定出现识别错误;
或,根据所述交集部分的解码结果与其他解码后的上下文之间语义的联系,判断是否出现识别错误;若不存在联系,则确定出现识别错误;
或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析;若生成字符个数最多的解码结果语义无效,则确定出现识别错误。


5.根据权利要求4所述的方法,其特征在于,所述重新确定文本数据对应的字符集,包括:
若一个字符集对所述交集部分解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集;
或,若一个字符集对所述交集部分解码后能够与其他解码后的上下文之间存在语义联系,则确定所述字符集为文本数据对应的字符集;
或,根据字符集解码生成字符个数从多到少的顺序对文本数据解码生成的字符逐一进行语义分析,当确定一个字符集对文本数据解码的结果能够表达含义,则确定所述字符集为文本数据对应的字符集。


6.根据权利要求1所述的装置,其特征在于,对所述文本数据采用多种字符集进行解码,包括:
利用多线程,对所述文本数据采用多种字符集进行解码;
其中,每种字符集分别采用一个线程对文本数据进行解码。


7.一种确定字符集的装置,其特征在于,包括:
解码模块,用于对待解码的文本数据采用多种字符集进行解码;
字符个数确定模块,用于确定每种字符集对所述文本数据解码生成字符的个数;
字符集确定模块,用于将所述解码生成...

【专利技术属性】
技术研发人员:马德棚
申请(专利权)人:北京京东尚科信息技术有限公司北京京东世纪贸易有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1