System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本处理,尤其涉及一种文本处理方法、装置以及存储介质。
技术介绍
1、特定应用场景下的文本容易出现较多的书写规范问题。例如国际面单地址记录栏中的文本,容易出现多语言混合、内容拼写错误、词与词之间无分隔以及字母粘连等异常情况。
2、针对此类文本,采用语种转换工具对其进行转换处理,会因内容的不规范而达不到理想的效果。而采用传统人工处理的方式,往往存在效率低、成本高以及精度差等问题。
技术实现思路
1、本专利技术提供了一种文本处理方法、装置以及存储介质,以解决现有技术中,针对内容存在异常的待处理文本,无法对其进行高效精准的语种转换的技术问题。
2、根据本专利技术的一方面,提供了一种文本处理方法,该方法包括:
3、获取待检测文本,确定待检测文本中的目标字符串,其中,目标字符串包括由目标字母组成的字符串,目标字母至少包括拼音字母和/或英文字母;
4、基于预先建立的词库对目标字符串进行内容重构,得到重构字符串,基于重构字符串更新待检测文本中的目标字符串,其中,词库用于查询多个目标字母可组成的词语对应的词字符串;
5、将更新后的待检测文本进行语种转换,得到目标文本。
6、根据本专利技术的另一方面,提供了一种文本处理装置,该装置包括:
7、文本获取模块,用于获取待检测文本,确定待检测文本中的目标字符串,其中,目标字符串包括由目标字母组成的字符串,目标字母至少包括拼音字母和/或英文字母;
8
9、文本转换模块,用于将更新后的待检测文本进行语种转换,得到目标文本。
10、根据本专利技术的另一方面,提供了一种电子设备,电子设备包括:
11、至少一个处理器;以及
12、与至少一个处理器通信连接的存储器;其中,
13、存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本专利技术任一实施例的文本处理方法。
14、根据本专利技术的另一方面,提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本专利技术任一实施例的文本处理方法。
15、本专利技术实施例的技术方案,首先通过获取待检测文本,确定待检测文本中的目标字符串,其中,目标字符串包括由目标字母组成的字符串,目标字母至少包括拼音字母和/或英文字母,实现了对文本内容的基于字符串解构。然后基于预先建立的词库对目标字符串进行内容重构,得到重构字符串,基于重构字符串更新待检测文本中的目标字符串,其中,词库用于查询多个目标字母可组成的词语对应的词字符串,将内容异常的文本重构为了便于语种转换的规范文本。最后将更新后的待检测文本进行语种转换,得到目标文本。解决了针对内容存在异常的待处理文本,难以对其进行高效精准的语种转换处理的技术问题。取得了规范文本内容,进而提高文本的语种转换处理效率和精度的效果。
16、应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
本文档来自技高网...【技术保护点】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于预先建立的词库对所述目标字符串进行内容重构,得到重构字符串,包括:
3.根据权利要求2所述的方法,其特征在于,所述按照所述目标字符串中每个所述目标字母的排布顺序在预先建立的词库进行查询,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于查询结果确定重构字符串,包括:
5.根据权利要求4所述的方法,其特征在于,所述确定出所述候选组中的目标组,包括:
6.根据权利要求5所述的方法,其特征在于,所述基于每个所述候选组中的无效字符串和/或所述候选字符串对应的词频确定目标组,包括:
7.根据权利要求1所述的方法,其特征在于,所述将更新后的所述待检测文本进行语种转换,得到目标文本,包括:
8.根据权利要求1所述的方法,其特征在于,所述确定所述待检测文本中的目标字符串,包括:
9.一种文本处理装置,其特征在于,包括:
10.一种电子设备,其特征在于,所述电子设备包括:
【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于预先建立的词库对所述目标字符串进行内容重构,得到重构字符串,包括:
3.根据权利要求2所述的方法,其特征在于,所述按照所述目标字符串中每个所述目标字母的排布顺序在预先建立的词库进行查询,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于查询结果确定重构字符串,包括:
5.根据权利要求4所述的方法,其特征在于,所述确定出所述候选组中的目标...
【专利技术属性】
技术研发人员:朱浩,孟彦伟,侯雷平,李丽,
申请(专利权)人:中邮信息科技北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。