包含近似词语的文本的分组方法、装置及介质制造方法及图纸

技术编号：33506384 阅读：14 留言：0更新日期：2022-05-19 01:16

本公开涉及包含近似词语的文本的分组方法、装置及介质。提供了一种对包含近似词语的多个文本进行分组的方法，包括：对多个文本进行初始分组，包括：计算多个文本中的任意两个文本之间的相似度；将相似度大于第一相似度阈值的文本归类为一个初始分组，形成一个或多个初始分组；在存在多个初始分组的情况下，对多个初始分组进行第一层分组，包括：计算多个初始分组中的任意两个初始分组之间的相似度；对于每个初始分组，找到与该初始分组相似度最高的相似初始分组，如果该初始分组与相似初始分组之间的相似度大于第二相似度阈值，则将该初始分组与相似初始分组归类为一个第一层分组，形成一个或多个第一层分组。形成一个或多个第一层分组。形成一个或多个第一层分组。

全部详细技术资料下载

【技术实现步骤摘要】
包含近似词语的文本的分组方法、装置及介质

[0001]本公开总体上涉及包含近似词语的文本的分组方法、装置及介质。

技术介绍

[0002]随着信息化时代发展越来越迅速，对信息安全的需求也越来越高，而信息安全保护是要建立在对资产分类分级的基础上的，所以对信息的存储、管理及分类分级也就变得尤为重要。尤其是在电信等大规模数据行业，资产梳理也就变得尤为困难。目前许多知识的分类由于缺乏更多信息特征，因而涉及到针对含专有名词的近似短词组或文本进行分类。例如针对不同省份相同或相似系统的分类分级就涉及到需要通过系统名进行分类，系统本身可能存在其他特征信息可以使用，但信息缺失或错误，分类不准，或者简介五花八门都使得针对系统名直接进行分类反而更为高效和精准。
[0003]主流自然语言处理方法很难解决短词组的分类问题：目前主流的自然语言处理方法大多需要大量训练样本训练监督学习模型，或者使用语义模型对文本进行向量转换计算两两相似度或对它们进行聚类，它们大多数针对的是信息量较大的文章或者短句，对这些有一定篇幅的文字进行处理后可以对处理后的数据进行特征提取，比如TF-IDF (词频-逆向文件频率)的转换来形成一个多维特征的语义空间，然后在这个空间里可以进行相似度计算或者将这些特征进行聚类以对文章进行聚类，但此类方法对短词组并不适用，短词组本身分词较少，且由于基数较小，干扰词及多义词较多，词频及逆向文件频率等特征无法精准体现词组的核心意义，尤其是若含有专有名词或者分词存在错误，此类方法就很难达到可以使用的准确率
[0004]针对短词...

【技术保护点】

【技术特征摘要】
1.一种对包含近似词语的多个文本进行分组的方法，包括：对所述多个文本进行初始分组，包括：计算所述多个文本中的任意两个文本之间的相似度；将相似度大于第一相似度阈值的文本归类为一个初始分组，从而形成一个或多个初始分组；在存在多个初始分组的情况下，对所述多个初始分组进行第一层分组，包括：计算所述多个初始分组中的任意两个初始分组之间的相似度；对于每个初始分组，找到与该初始分组相似度最高的相似初始分组，如果该初始分组与所述相似初始分组之间的相似度大于第二相似度阈值，那么将该初始分组与所述相似初始分组归类为一个第一层分组，从而形成一个或多个第一层分组。2.根据权利要求1所述的方法，还包括：在存在多个较低层分组的情况下，对该多个较低层分组进行后续层分组，包括：计算所述多个较低层分组中的任意两个较低层分组之间的相似度；对于每个较低层分组，找到与该较低层分组相似度最高的相似较低层分组，如果该较低层分组与所述相似较低层分组之间的相似度大于对应的相似度阈值，那么将该较低层分组与所述相似较低层分组归类为一个较高层分组，从而形成一个或多个较高层分组；以及重复进行后续层分组，直到无法继续对较低层分组进行归类，或者已将所有较低层分组归类到同一组。3.根据权利要求2所述的方法，还包括：针对每一层分组，按照分组中的成员数量、分组的组号以及相似度高低，以从上级到下级的顺序排序。4.根据权利要求2所述的方法，其中，较高层的...

【专利技术属性】
技术研发人员：杨诗友，
申请(专利权)人：中国电信股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人