文本处理方法、装置、URL处理方法及装置制造方法及图纸

技术编号：36191515 阅读：27 留言：0更新日期：2022-12-31 21:08

本说明书实施例提供文本处理方法、装置、URL处理方法及装置，其中所述文本处理方法包括：对目标文本进行拆分，获得所述目标文本的若干个文本分段；利用文本分类策略，分析所述若干个文本分段在所述目标文本中的文本特征，得到所述若干个文本分段各自对应的分类；针对分类不确定的文本分段，利用单词字典库进行分析，得到对应的分类；将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理，得到收敛后的文本分段；利用所述收敛后的文本分段，更新所述目标文本。实现了对单条目标文本的更新，进一步实现对目标文本的分类收敛，从而降低目标文本的存储成本和查询成本，并且能够满足一进一出式的流式场景的需求。能够满足一进一出式的流式场景的需求。能够满足一进一出式的流式场景的需求。

全部详细技术资料下载

【技术实现步骤摘要】
文本处理方法、装置、URL处理方法及装置

[0001]本说明书实施例涉及信息分类
，特别涉及文本处理方法。

技术介绍

[0002]统一资源定位符(URL)是对可以从互联网上得到的资源的位置和访问方法的一种简洁的表示，是互联网上标准资源的地址。互联网上的每个文件都有一个唯一的URL，它包含的信息可以指出文件的位置以及浏览器对该文件的处理方式。
[0003]通常可以根据域名是否相同来对URL进行分类并存储，然而，URL中存在着自动生成的发散字段内容，这些发散字段内容可能是无意义的数字和特殊符号的堆积，在实际存储和查询渲染时，这些字段内容由于字符长度较长，在存储时需要将这些发散字段全部存储，导致存储成本和查询成本的增加。因此，亟需一种有效的技术方案解决上述问题。

技术实现思路

[0004]有鉴于此，本说明书实施例提供了一种文本处理方法。本说明书一个或者多个实施例同时涉及一种文本处理装置，一种URL处理方法，一种URL处理装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，包括：对目标文本进行拆分，获得所述目标文本的若干个文本分段；利用文本分类策略，分析所述若干个文本分段在所述目标文本中的文本特征，得到所述若干个文本分段各自对应的分类；针对分类不确定的文本分段，利用单词字典库进行分析，得到对应的分类；将所述若干个文本分段中对应的分类属于发散的文本分段进行收敛处理，得到收敛后的文本分段；利用所述收敛后的文本分段，更新所述目标文本。2.根据权利要求1所述的方法，所述针对分类不确定的文本分段，利用单词字典库进行分析，得到对应的分类，包括：针对分类不确定的文本分段，利用单词字典库，确定所述文本分段对应的文本单词；根据所述文本单词，确定所述文本分段对应的第一字符长度；根据所述文本分段、以及所述文本分段对应的第一字符长度，确定所述文本分段对应的分类。3.根据权利要求2所述的方法，所述根据所述文本单词，确定所述文本分段对应的第一字符长度，包括：确定所述文本单词在所述文本分段中的字符区间；根据所述字符区间，确定所述文本分段对应的第一字符长度。4.根据权利要求2所述的方法，所述根据所述文本单词，确定所述文本分段对应的第一字符长度，包括：在确定所述文本分段对应的若干个文本单词的情况下，确定所述若干个文本单词在所述文本分段中各自对应的字符区间；对所述若干个文本单词在所述文本分段中各自对应的字符区间进行合并，根据合并结果确定所述文本分段对应的第一字符长度。5.根据权利要求2所述的方法，所述根据所述文本分段、以及所述文本分段对应的第一字符长度，确定所述文本分段对应的分类，包括：确定所述文本分段对应的文本字符的第二字符长度；根据所述第一字符长度和所述第二字符长度的比值，确定所述文本分段对应的分类。6.根据权利要求5所述的方法，所述根据所述第一字符长度和所述第二字符长度的比值，确定所述文本分段对应的分类，包括：在所述比值达到第一比例阈值范围的情况下，确定所述文本分段对应的分类属于收敛；在所述比值达到第二比例阈值范围的情况下，确定所述文本分段对应的分类属于发散，其中，所述第一比例阈值范围的下限等于所述第二比例阈值范围的上限。7.根据权利要求1所述的方法，所述利用文本分类策略，分析所述若干个文本分段在所述目标文本中的文本特征，得到所述若干个文本分段各自对应的分类，包括：确定所述若干个文本分段各自对应的文本字符的字符类型、以及不同字符类型对应的文本字符的切换次数；根据所述字符类型和所述切换次数，确定所述若干个文本分段各自对应的...

【专利技术属性】
技术研发人员：董善东，李国忠，徐彤，
申请(专利权)人：阿里巴巴中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人