文本处理方法、装置、URL处理方法及装置制造方法及图纸

技术编号:36191515 阅读:15 留言:0更新日期:2022-12-31 21:08
本说明书实施例提供文本处理方法、装置、URL处理方法及装置,其中所述文本处理方法包括:对目标文本进行拆分,获得所述目标文本的若干个文本分段;利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;利用所述收敛后的文本分段,更新所述目标文本。实现了对单条目标文本的更新,进一步实现对目标文本的分类收敛,从而降低目标文本的存储成本和查询成本,并且能够满足一进一出式的流式场景的需求。能够满足一进一出式的流式场景的需求。能够满足一进一出式的流式场景的需求。

【技术实现步骤摘要】
文本处理方法、装置、URL处理方法及装置


[0001]本说明书实施例涉及信息分类
,特别涉及文本处理方法。

技术介绍

[0002]统一资源定位符(URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示,是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL,它包含的信息可以指出文件的位置以及浏览器对该文件的处理方式。
[0003]通常可以根据域名是否相同来对URL进行分类并存储,然而,URL中存在着自动生成的发散字段内容,这些发散字段内容可能是无意义的数字和特殊符号的堆积,在实际存储和查询渲染时,这些字段内容由于字符长度较长,在存储时需要将这些发散字段全部存储,导致存储成本和查询成本的增加。因此,亟需一种有效的技术方案解决上述问题。

技术实现思路

[0004]有鉴于此,本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置,一种URL处理方法,一种URL处理装置,一种计算设备,一种计算机可读存储介质以及一种计算机程序,以解决现有技术中存在的技术缺陷。
[0005]根据本说明书实施例的第一方面,提供了一种文本处理方法,包括:
[0006]对目标文本进行拆分,获得所述目标文本的若干个文本分段;
[0007]利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;
[0008]针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
[0009]将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
[0010]利用所述收敛后的文本分段,更新所述目标文本。
[0011]根据本说明书实施例的第二方面,提供了一种文本处理装置,包括:
[0012]拆分模块,被配置为对目标文本进行拆分,获得所述目标文本的若干个文本分段;
[0013]第一分析模块,被配置为利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;
[0014]第二分析模块,被配置为针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
[0015]收敛模块,被配置为将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
[0016]更新模块,被配置为利用所述收敛后的文本分段,更新所述目标文本。
[0017]根据本说明书实施例的第三方面,提供了一种URL处理方法,包括:
[0018]对目标URL进行拆分,获得所述目标URL的若干个文本分段;
[0019]利用文本分类策略,分析所述若干个文本分段在所述目标URL中的文本特征,得到
所述若干个文本分段各自对应的分类;
[0020]针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
[0021]将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
[0022]利用所述收敛后的文本分段,更新所述目标URL,得到更新后的URL;
[0023]利用迭代器模型,查询所述更新后的URL。
[0024]根据本说明书实施例的第四方面,提供了一种URL处理装置,包括:
[0025]拆分模块,被配置为对目标URL进行拆分,获得所述目标URL的若干个文本分段;
[0026]第一分析模块,被配置为利用文本分类策略,分析所述若干个文本分段在所述目标URL中的文本特征,得到所述若干个文本分段各自对应的分类;
[0027]第二分析模块,被配置为针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;
[0028]收敛模块,被配置为将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;
[0029]更新模块,被配置为利用所述收敛后的文本分段,更新所述目标URL,得到更新后的URL;
[0030]查询模块,被配置为利用迭代器模型,查询所述更新后的URL。
[0031]根据本说明书实施例的第五方面,提供了一种计算设备,包括:
[0032]存储器和处理器;
[0033]所述存储器用于存储计算机可执行指令,所述处理器用于执行所述计算机可执行指令,该计算机可执行指令被处理器执行时实现上述文本处理方法或URL处理方法的步骤。
[0034]根据本说明书实施例的第六方面,提供了一种计算机可读存储介质,其存储有计算机可执行指令,该指令被处理器执行时实现上述文本处理方法或URL处理方法的步骤。
[0035]根据本说明书实施例的第七方面,提供了一种计算机程序,其中,当所述计算机程序在计算机中执行时,令计算机执行上述文本处理方法或URL处理方法的步骤。
[0036]本说明书一个实施例提供了一种文本处理方法,对目标文本进行拆分,获得所述目标文本的若干个文本分段;利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;利用所述收敛后的文本分段,更新所述目标文本。
[0037]上述方法通过对目标文本进行拆分,利用文本分类策略对拆分后得到的若干个文本分段在目标文本中的文本特征进行分析,从而获得若干个文本分段各自对应的分类;并且,对于利用文本分类策略无法确定分类的文本分段,利用单词字典库对其进行分析,实现对其分类。通过文本分类策略和单词字典库结合对文本分段进行分析,即能够实现对每个文本分段的分类,并对分类属于发散的文本分段进行收敛处理,利用收敛后的文本分段更新该目标文本,实现了对单个目标文本的更新,使其无需依赖其他URL进行分类,能够满足一进一出式的流式场景的需求,并且能够适配URL动态变化,通用性强,依赖人工经验较少,计算耗时低。并且实现了目标文本中的字符长度的减少,便于存储和查询,进而降低了存储
成本和查询成本。
附图说明
[0038]图1是本说明书一个实施例提供的一种文本处理方法的具体应用场景示意图;
[0039]图2是本说明书一个实施例提供的一种文本处理方法的流程图;
[0040]图3是本说明书一个实施例提供的一种文本处理方法中查询URL的示意图;
[0041]图4是本说明书一个实施例提供的一种文本处理方法的处理过程流程图;
[0042]图5是本说明书一个实施例提供的一种文本处理装置的结构示意图;
[0043]图6是本说明书一个实施例提供的一种URL处理方法的具体应用场景示意图;
[0044]图7是本说明书一个实施例提供的一种URL处理方法的流程图;
[0045]图8是本说明书一个实施例提供的一种URL处理方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,包括:对目标文本进行拆分,获得所述目标文本的若干个文本分段;利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类;针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类;将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理,得到收敛后的文本分段;利用所述收敛后的文本分段,更新所述目标文本。2.根据权利要求1所述的方法,所述针对分类不确定的文本分段,利用单词字典库进行分析,得到对应的分类,包括:针对分类不确定的文本分段,利用单词字典库,确定所述文本分段对应的文本单词;根据所述文本单词,确定所述文本分段对应的第一字符长度;根据所述文本分段、以及所述文本分段对应的第一字符长度,确定所述文本分段对应的分类。3.根据权利要求2所述的方法,所述根据所述文本单词,确定所述文本分段对应的第一字符长度,包括:确定所述文本单词在所述文本分段中的字符区间;根据所述字符区间,确定所述文本分段对应的第一字符长度。4.根据权利要求2所述的方法,所述根据所述文本单词,确定所述文本分段对应的第一字符长度,包括:在确定所述文本分段对应的若干个文本单词的情况下,确定所述若干个文本单词在所述文本分段中各自对应的字符区间;对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并,根据合并结果确定所述文本分段对应的第一字符长度。5.根据权利要求2所述的方法,所述根据所述文本分段、以及所述文本分段对应的第一字符长度,确定所述文本分段对应的分类,包括:确定所述文本分段对应的文本字符的第二字符长度;根据所述第一字符长度和所述第二字符长度的比值,确定所述文本分段对应的分类。6.根据权利要求5所述的方法,所述根据所述第一字符长度和所述第二字符长度的比值,确定所述文本分段对应的分类,包括:在所述比值达到第一比例阈值范围的情况下,确定所述文本分段对应的分类属于收敛;在所述比值达到第二比例阈值范围的情况下,确定所述文本分段对应的分类属于发散,其中,所述第一比例阈值范围的下限等于所述第二比例阈值范围的上限。7.根据权利要求1所述的方法,所述利用文本分类策略,分析所述若干个文本分段在所述目标文本中的文本特征,得到所述若干个文本分段各自对应的分类,包括:确定所述若干个文本分段各自对应的文本字符的字符类型、以及不同字符类型对应的文本字符的切换次数;根据所述字符类型和所述切换次数,确定所述若干个文本分段各自对应的...

【专利技术属性】
技术研发人员:董善东李国忠徐彤
申请(专利权)人:阿里巴巴中国有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1