System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及文本处理,且可用于金融科技领域,特别是涉及一种文本字符的截取方法、文本字符的截取装置、计算机设备、计算机可读存储介质和计算机程序产品。
技术介绍
1、不同的计算机系统在文本信息的处理上,通常会采用不同的编码格式进行处理,比如在金融系统a中使用gbk格式来存储业务数据,在金融系统b中使用utf-8格式来存储业务数据。因此,在两个金融系统中,当对业务数据进行交互传输时,数据接收方通常需要将接收到的数据内容转换为本地系统的编码格式进行处理。
2、一般在信息数据的传输过程中是采用定长格式进行传输,但是由于数据发送方和数据接收方之间的编码格式不同,导致编码格式转换后的字节长度会发生变化(例如在gbk格式的编码中,汉字以两个字节表示,在utf-8格式的编码中,汉字以三个字节表示),从而在两种编码格式的文本信息中存在字节错位的情况,以导致在后续截取文本信息中的字符信息时,存在截取复杂度较高和信息截取准确度较低情况。
技术实现思路
1、本公开提供一种文本字符的截取方法、文本字符的截取装置、计算机设备、计算机可读存储介质和计算机程序产品,以至少解决相关技术中文本字符的截取复杂度较高和准确度较低的问题。本公开的技术方案如下:
2、根据本公开实施例的第一方面,提供一种文本字符的截取方法,包括:
3、获取目标文本字符;所述目标文本字符为目标系统中用于记录业务信息数据的文本字符;
4、基于所述目标文本字符中的待截取字符在原始文本字符中的字节位置,确定
5、基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,以基于所述截取位置从所述目标文本字符中截取出所述待截取字符;所述截取位置用于表征所述待截取字符在所述目标文本字符中的起始截取字节和字节截取长度。
6、在一示例性实施例中,在所述获取目标文本字符之前,还包括:
7、获取所述原始文本字符;
8、基于预设的字符编码格式对所述原始文本字符进行字符编码处理,得到所述目标文本字符;
9、其中,所述目标文本字符所属的第一编码格式和所述原始文本字符所属的第二编码格式不相同;
10、在所述第一编码格式与所述第二编码格式之间,关于所述中文字符对应所占据的字节位数不相同;
11、在所述第一编码格式与所述第二编码格式之间,关于所述外文字符、所述数字字符和所述符号字符对应所占据的字节位数相同。
12、在一示例性实施例中,所述字节位置包括所述待截取字符在所述原始文本字符中的起始字节位置;
13、所述基于所述目标文本字符中的待截取字符在原始文本字符中的字节位置,确定所述目标文本字符和所述原始文本字符之间关于所述待截取字符的位置关系模型,包括:
14、基于所述起始字节位置,确定所述原始文本字符中对应位置处于所述待截取字符前的前置文本字符;
15、基于预设的编码格式关系模型和所述起始字节位置,构建针对所述前置文本字符的第一关系模型;所述编码格式关系模型用于表征所述第一编码格式与所述第二编码格式之间字符/字节关系,所述第一关系模型用于表征所述目标文本字符和所述原始文本字符之间关于所述前置文本字符的字符/字节关系;
16、基于所述原始文本字符中存在所述中文字符的数量,将所述第一关系模型转换为第一位置关系模型;所述第一位置关系模型用于表征所述目标文本字符和所述原始文字本符之间关于所述起始字节位置的字节位置关系。
17、在一示例性实施例中,所述基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,包括:
18、基于所述中位数算法对所述第一位置关系模型进行循环求解,直到对应的模型求解值满足预设的停止条件时,将所述模型求解值作为所述待截取字符在所述目标文本字符中的起始截取字节。
19、在一示例性实施例中,所述字节位置包括所述待截取字符在所述原始文本字符中的截止字节位置;
20、所述基于所述目标文本字符中的待截取字符在原始文本字符中的字节位置,确定所述目标文本字符和所述原始文本字符之间关于所述待截取字符的位置关系模型,包括:
21、基于所述编码格式关系模型、所述起始字节位置和所述截止字节位置,构建针对所述待截取字符的第二关系模型;所述第二关系模型用于表征所述目标文本字符和所述原始文本字符之间关于所述待截取字符的字符/字节关系;
22、基于所述原始文本字符中存在所述中文字符的数量,将所述第二关系模型转换为第二位置关系模型;所述第二位置关系模型用于表征所述目标文本字符和所述原始文字本符之间关于所述截止字节位置的字节位置关系。
23、在一示例性实施例中,所述基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,包括:
24、基于所述中位数算法对所述第二位置关系模型进行循环求解,直到对应的模型求解值满足预设的停止条件时,将所述模型求解值作为所述待截取字符在所述目标文本字符中的字节截取长度。
25、根据本公开实施例的第二方面,提供一种文本字符的截取装置,包括:
26、字符获取单元,被配置为执行获取目标文本字符;所述目标文本字符为目标系统中用于记录业务信息数据的文本字符;
27、位置关系单元,被配置为执行基于所述目标文本字符中的待截取字符在原始文本字符中的字节位置,确定所述目标文本字符和所述原始文本字符之间关于所述待截取字符的位置关系模型;其中,在所述待截取字符中包括以字节形式表达的中文字符、外文字符、数字字符和符号字符中的至少一种;
28、字符截取单元,被配置为执行基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,以基于所述截取位置从所述目标文本字符中截取出所述待截取字符;所述截取位置用于表征所述待截取字符在所述目标文本字符中的起始截取字节和字节截取长度。
29、第三方面,本申请还提供了一种计算机设备,包括:
30、处理器;
31、用于存储所述处理器的可执行指令的存储器;
32、其中,所述处理器被配置为执行所述可执行指令,以实现如上所述的文本字符的截取方法。
33、第四方面,本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质中包括程序数据,当所述程序数据被执行时,实现如上所述的文本字符的截取方法。
34、第五方面,本申请还提供了一种计算机程序产品。所述计算机程序产品中包括程序指令,当所述程序指令被执行时,实现如上所述的文本字符的截取方法。
35、本公开的实施例提供的技术方案本文档来自技高网...
【技术保护点】
1.一种文本字符的截取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述获取目标文本字符之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述字节位置包括所述待截取字符在所述原始文本字符中的起始字节位置;
4.根据权利要求3所述的方法,其特征在于,所述基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,包括:
5.根据权利要求4所述的方法,其特征在于,所述字节位置包括所述待截取字符在所述原始文本字符中的截止字节位置;
6.根据权利要求5所述的方法,其特征在于,所述基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,包括:
7.一种文本字符的截取装置,其特征在于,包括:
8.一种计算机设备,其特征在于,所述计算机设备包括处理器以及与所述处理器连接的存储器,其中,所述存储器中存储有程序数据,所述处理器用于调取所述存储器中存储的所述程序数据,以执行如权利要求1-6中任一项所述的
9.一种计算机可读存储介质,所述计算机可读存储介质中包括程序数据,其特征在于,当所述程序数据由计算机设备的处理器执行时,使得所述计算机设备能够执行如权利要求1至6中任一项所述的文本字符的截取方法。
10.一种计算机程序产品,内部存储有计算机程序,其特征在于,所述计算机程序在被处理器执行时以实现如权利要求1-6中任一项所述的方法。
...【技术特征摘要】
1.一种文本字符的截取方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,在所述获取目标文本字符之前,还包括:
3.根据权利要求2所述的方法,其特征在于,所述字节位置包括所述待截取字符在所述原始文本字符中的起始字节位置;
4.根据权利要求3所述的方法,其特征在于,所述基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在所述目标文本字符中的截取位置,包括:
5.根据权利要求4所述的方法,其特征在于,所述字节位置包括所述待截取字符在所述原始文本字符中的截止字节位置;
6.根据权利要求5所述的方法,其特征在于,所述基于中位数算法对所述位置关系模型进行循环求解,确定所述待截取字符在...
【专利技术属性】
技术研发人员:黄焕然,霍华仔,杨博量,何敏华,
申请(专利权)人:中国工商银行股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。