包含近似词语的文本的分组方法、装置及介质制造方法及图纸

技术编号:33506384 阅读:14 留言:0更新日期:2022-05-19 01:16
本公开涉及包含近似词语的文本的分组方法、装置及介质。提供了一种对包含近似词语的多个文本进行分组的方法,包括:对多个文本进行初始分组,包括:计算多个文本中的任意两个文本之间的相似度;将相似度大于第一相似度阈值的文本归类为一个初始分组,形成一个或多个初始分组;在存在多个初始分组的情况下,对多个初始分组进行第一层分组,包括:计算多个初始分组中的任意两个初始分组之间的相似度;对于每个初始分组,找到与该初始分组相似度最高的相似初始分组,如果该初始分组与相似初始分组之间的相似度大于第二相似度阈值,则将该初始分组与相似初始分组归类为一个第一层分组,形成一个或多个第一层分组。形成一个或多个第一层分组。形成一个或多个第一层分组。

【技术实现步骤摘要】
包含近似词语的文本的分组方法、装置及介质


[0001]本公开总体上涉及包含近似词语的文本的分组方法、装置及介质。

技术介绍

[0002]随着信息化时代发展越来越迅速,对信息安全的需求也越来越高,而信息安全保护是要建立在对资产分类分级的基础上的,所以对信息的存储、管理及分类分级也就变得尤为重要。尤其是在电信等大规模数据行业,资产梳理也就变得尤为困难。目前许多知识的分类由于缺乏更多信息特征,因而涉及到针对含专有名词的近似短词组或文本进行分类。例如针对不同省份相同或相似系统的分类分级就涉及到需要通过系统名进行分类,系统本身可能存在其他特征信息可以使用,但信息缺失或错误,分类不准,或者简介五花八门都使得针对系统名直接进行分类反而更为高效和精准。
[0003]主流自然语言处理方法很难解决短词组的分类问题:目前主流的自然语言处理方法大多需要大量训练样本训练监督学习模型,或者使用语义模型对文本进行向量转换计算两两相似度或对它们进行聚类,它们大多数针对的是信息量较大的文章或者短句,对这些有一定篇幅的文字进行处理后可以对处理后的数据进行特征提取,比如TF-IDF (词频-逆向文件频率)的转换来形成一个多维特征的语义空间,然后在这个空间里可以进行相似度计算或者将这些特征进行聚类以对文章进行聚类,但此类方法对短词组并不适用,短词组本身分词较少,且由于基数较小,干扰词及多义词较多,词频及逆向文件频率等特征无法精准体现词组的核心意义,尤其是若含有专有名词或者分词存在错误,此类方法就很难达到可以使用的准确率
[0004]针对短词组的分类方法主要以监督学习为主且需要大量前期资源投入:目前针对缺乏信息量但含专有名词及行业术语的文本或短词组的分类/分组方法相对较少,仅有的几个使用的也都是通过业务逻辑或其他特征归纳(比如词性)或通过训练分类模型的方式对短词组进行硬性归类和打标,这些方法需要获取大量的有标签数据,术语词库,业务专家知识,或者算法专家调参进行训练,且打标不具备灵活性(需要确定固定几个分类),若改变规则重新分类,则需要重新训练(而且有时无法清楚了解到底有几类)。硬性打标的方式也很难保证分类的准确率,若需要检查准确率,则又需要对一个个数据进行检查比对,效率较低。

技术实现思路

[0005]根据本公开的一个方面,提供一种对包含近似词语的多个文本进行分组的方法,包括:对所述多个文本进行初始分组,包括:计算所述多个文本中的任意两个文本之间的相似度;将相似度大于第一相似度阈值的文本归类为一个初始分组,从而形成一个或多个初始分组;在存在多个初始分组的情况下,对所述多个初始分组进行第一层分组,包括:计算所述多个初始分组中的任意两个初始分组之间的相似度;对于每个初始分组,找到与该初始分组相似度最高的相似初始分组,如果该初始分组与所述相似初始分组之间的相似度大
于第二相似度阈值,那么将该初始分组与所述相似初始分组归类为一个第一层分组,从而形成一个或多个第一层分组。
[0006]根据本公开的另一个方面,提供一种对包含近似词语的多个文本进行分组的装置,包括:存储器,其上存储有指令;以及处理器,被配置为执行存储在所述存储器上的指令,以执行如上所述的方法。
[0007]根据本公开的又一个方面,提供一种计算机可读存储介质,其包括计算机可执行指令,所述计算机可执行指令在由一个或多个处理器执行时,使得所述一个或多个处理器执行根据本公开的上述方面所述的方法。
附图说明
[0008]构成说明书的一部分的附图描述了本公开的实施例,并且连同说明书一起用于解释本公开的原理。
[0009]参照附图,根据下面的详细描述,可以更清楚地理解本公开,其中:
[0010]图1示出了根据本公开的一个实施例的对包含近似词语的多个文本进行分组的方法的流程图。
[0011]图2示出了可以实现根据本公开的实施例的计算设备的示例性配置。
[0012]图3示出了根据本公开的一个实施例中的短词组的相似度矩阵。
[0013]图4示出了根据本公开的一个实施例所获得的分层结构及最终排序结果。
具体实施方式
[0014]参考附图进行以下详细描述,并且提供以下详细描述以帮助全面理解本公开的各种示例实施例。以下描述包括各种细节以帮助理解,但是这些细节仅被认为是示例,而不是为了限制本公开,本公开是由随附权利要求及其等同内容限定的。在以下描述中使用的词语和短语仅用于能够清楚一致地理解本公开。另外,为了清楚和简洁起见,可能省略了对公知的结构、功能和配置的描述。本领域普通技术人员将认识到,在不脱离本公开的精神和范围的情况下,可以对本文描述的示例进行各种改变和修改。
[0015]针对上述文本或短词组的分类方法所存在的问题,本公开提出一种创新的无监督多层次分类归组排序算法,可以实现对含专有名词的文本或短词组在无需先验知识及分类规则设定情况下进行多层分组,将越相似的词组排在越接近的位置,从而可以达成人工自定义分组或可选智能分组的创新分类排序算法,解决了硬性打标在准确率、初始类别制定、及后续类别修改上的问题,并为分组提供了更多的灵活性和更高的自由度,更便于自由选择分类标准的严弱层级并检查每一层的分类精准度,在智能算法目前无法在短文本或短词缺乏信息时达到极高准确率的情况下,提供了一种可选型智能算法。这个可以实现半人工半智能的辅助人工的创新算法在无需先验知识及分类规则设定的情况下,依然可以保证高准确率和效率,大幅降低前期人工打标、词库建造或者模型训练所需要的人工参与度。
[0016]图1示出了根据本公开的一个实施例的对包含近似词语的多个文本进行分组的方法100的流程图。该方法100主要包括:对所述多个文本进行初始分组(步骤101);以及在存在多个初始分组的情况下,对所述多个初始分组进行第一层分组(步骤102)。
[0017]在一个实施例中,上述文本可以是包含近似词语(例如,任意一个或多个领域中的
专有名词)的一段任意语言的文本。在一个实施例中,上述文本可以包含一个或多个短词组、一个或多个短语或一个或多个句子。在一个实施例中,上述文本可以是一个系统的名称或系统名称与子系统名称的组合。
[0018]在一个实施例中,步骤101可以包括:计算所述多个文本中的任意两个文本之间的相似度;将相似度大于第一相似度阈值的文本归类为一个初始分组,从而形成一个或多个初始分组。
[0019]在一个实施例中,步骤102可以包括:计算所述多个初始分组中的任意两个初始分组之间的相似度;对于每个初始分组,找到与该初始分组相似度最高的相似初始分组,如果该初始分组与所述相似初始分组之间的相似度大于第二相似度阈值,那么将该初始分组与所述相似初始分组归类为一个第一层分组,从而形成一个或多个第一层分组。
[0020]通过上述方法100,能够对文本进行两层分组。
[0021]在一个实施例中,方法100还包括:在存在多个较低层分组(例如,在进行第二层分组的情况下,多个第一层分组)的情况下,对该多个较低层分组进行后续层分组,包括:计本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种对包含近似词语的多个文本进行分组的方法,包括:对所述多个文本进行初始分组,包括:计算所述多个文本中的任意两个文本之间的相似度;将相似度大于第一相似度阈值的文本归类为一个初始分组,从而形成一个或多个初始分组;在存在多个初始分组的情况下,对所述多个初始分组进行第一层分组,包括:计算所述多个初始分组中的任意两个初始分组之间的相似度;对于每个初始分组,找到与该初始分组相似度最高的相似初始分组,如果该初始分组与所述相似初始分组之间的相似度大于第二相似度阈值,那么将该初始分组与所述相似初始分组归类为一个第一层分组,从而形成一个或多个第一层分组。2.根据权利要求1所述的方法,还包括:在存在多个较低层分组的情况下,对该多个较低层分组进行后续层分组,包括:计算所述多个较低层分组中的任意两个较低层分组之间的相似度;对于每个较低层分组,找到与该较低层分组相似度最高的相似较低层分组,如果该较低层分组与所述相似较低层分组之间的相似度大于对应的相似度阈值,那么将该较低层分组与所述相似较低层分组归类为一个较高层分组,从而形成一个或多个较高层分组;以及重复进行后续层分组,直到无法继续对较低层分组进行归类,或者已将所有较低层分组归类到同一组。3.根据权利要求2所述的方法,还包括:针对每一层分组,按照分组中的成员数量、分组的组号以及相似度高低,以从上级到下级的顺序排序。4.根据权利要求2所述的方法,其中,较高层的...

【专利技术属性】
技术研发人员:杨诗友
申请(专利权)人:中国电信股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1