文本聚类方法、装置及可读存储介质制造方法及图纸

技术编号:31886118 阅读:17 留言:0更新日期:2022-01-15 12:10
本发明专利技术实施例公开了一种文本聚类方法、装置及可读存储介质,该文本聚类方法包括:获取至少一个文本语料;对该至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量;对该至少一个文本向量进行相似度计算,以得到至少一个文本向量对应的文本相似度矩阵;切分该文本相似度矩阵得到K个文本相似度块,并根据该K个文本相似度块,得到N个文本类簇,该K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,其中,K为大于或等于1的整数,N为小于或等于K的正整数。采用这样的文本聚类方法,可以提升聚类速度和聚类结果的准确性。可以提升聚类速度和聚类结果的准确性。可以提升聚类速度和聚类结果的准确性。

【技术实现步骤摘要】
文本聚类方法、装置及可读存储介质


[0001]本专利技术涉及自然语言处理应用领域,尤其涉及一种文本聚类方法、装置、服务器及可读存储介质。

技术介绍

[0002]智能客服机器人在功能上主要表现为智能问答、引导客户自助服务等,通常能快速解决大部分客户的问题,提高客服接待效率和提升客户满意度。文本作为信息数据的主要信息载体之一,在智能客服机器人系统中发挥着重要作用。
[0003]为了能让智能客服机器人根据客户问题匹配出最佳的回答,需要对大量的客户问题进行文本信息聚类。但是,由于文本聚类算法的空间复杂度较高且文本信息数据存在类间距不均的情况,造成在进行文本信息聚类时文本聚类速度慢、聚类效率较低以及聚类结果准确性较低的问题。
[0004]可见,如何在进行文本聚类任务时,提升聚类速度和聚类结果的准确性是一个亟待解决的问题。

技术实现思路

[0005]本专利技术实施例提供了一种文本聚类方法、装置、服务器及可读存储介质,采用这样的文本聚类方法,可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
[0006]第一方面,本专利技术实施例提供了一种文本聚类方法,所述方法包括:
[0007]获取至少一个文本语料;
[0008]对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
[0009]对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
[0010]切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
[0011]第二方面,本专利技术实施例提供了一种文本聚类装置,所述装置包括:
[0012]获取模块,用于获取至少一个文本语料;
[0013]处理模块,用于对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;
[0014]所述处理模块,还用于对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;
[0015]所述处理模块,还用于切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的
相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。
[0016]第三方面,本专利技术实施例提供了一种服务器,所述服务器包括输入设备和输出设备,所述服务器还包括处理器,适于实现一条或多条指令,所述一条或多条指令适于由所述处理器加载并执行上述第一方面所述的文本聚类方法。
[0017]第四方面,本专利技术实施例提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的文本聚类方法。
[0018]本申请实施例中,服务器获取至少一个文本语料,并对该至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量。进一步地,服务器可以对该至少一个文本向量进行相似度计算,以得到该至少一个文本向量对应的文本相似度矩阵,并切分文本相似度矩阵得到K个文本相似度块,进而,可以根据这K个文本相似度块,得到N个文本类簇,其中,该K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且该相似度的数量大于或等于切分数量阈值,K为大于或等于1的整数,N为小于或等于K的正整数。采用这样的文本聚类方法,可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
附图说明
[0019]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术实施例提供的一种文本聚类方法的流程示意图;
[0021]图2是本专利技术实施例提供的另一种文本聚类方法的流程示意图;
[0022]图3是本专利技术实施例提供的一种文本类簇的示意图;
[0023]图4是本专利技术实施例提供的又一种文本聚类方法的流程示意图;
[0024]图5是本专利技术实施例提供的一种文本聚类装置的结构示意图;
[0025]图6是本专利技术实施例提供的一种服务器的结构示意图。
具体实施方式
[0026]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0027]由于文本聚类算法的空间复杂度较高且文本信息数据存在类间距不均的情况,进行文本信息聚类时存在文本聚类速度慢、聚类效率较低以及聚类结果准确性较低的问题。本申请技术方案,通过对文本语料对应的文本向量进行相似度计算,以得到文本相似度矩阵,进一步地,通过对该文本相似度矩阵进行切分得到至少一个文本相似度块,并根据至少一个文本相似度块得到至少一个文本类簇。采用这样的方法,从每个切分出来的相似度块
中得到相似的文本类簇可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
[0028]本申请的技术方案所提及的文本聚类方法可以应用于服务器,该服务器包括但不限于应用服务器或服务器集群等。
[0029]请参见图1,是本专利技术实施例提供的一种文本聚类方法的流程示意图,该文本聚类方法包括如下步骤:
[0030]S101:获取至少一个文本语料。
[0031]服务器接收用户终端上的应用程序输入的至少一个(一个或多个)文本语料。例如,用户终端上安装有A电商应用程序,至少一个(一个或多个)用户通过A电商应用程序输入了至少一个聊天问题(即,前述文本语料),服务器获取(或接收)该至少一个聊天问题。
[0032]S102:对至少一个文本语料中每个文本语料进行向量化处理,以得到至少一个文本语料对应的至少一个文本向量。
[0033]需要知晓,向量化处理即是将每个文本语料转换为文本向量的处理方法。
[0034]服务器对前述获取的至少一个文本语料中每个文本语料进行向量化处理,得到至少一个文本向量,其中,文本向量的数量与文本语料的数量相同,且文本向量与文本语料一一对应。
[0035]在一个实施例中,服务器获取至少一个文本语料中每个文本语料进行分词处理,得到每个文本语料包括的各个分词,并对各个分词进行词性标注。进一步地,服务器可以计算各个分词在每本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法,其特征在于,所述方法包括:获取至少一个文本语料;对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量;对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵;切分所述文本相似度矩阵得到K个文本相似度块,并根据所述K个文本相似度块,得到N个文本类簇,所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值,且所述相似度的数量大于或等于切分数量阈值,所述K为大于或等于1的整数,所述N为小于或等于所述K的正整数。2.根据权利要求1所述的方法,其特征在于,所述对所述至少一个文本语料中每个文本语料进行向量化处理,以得到所述至少一个文本语料对应的至少一个文本向量,包括:对所述至少一个文本语料中的每个文本语料进行分词处理,得到所述每个文本语料包括的各个分词,并对所述各个分词进行词性标注;计算所述各个分词在所述每个文本语料中的逆文档频率值;根据词性标注结果和所述各个分词在所述每个文本语料中的逆文档频率值,对所述每个文本语料进行向量化处理,得到所述至少一个文本语料对应的至少一个文本向量。3.根据权利要求1或2所述方法,其特征在于,所述对所述至少一个文本向量进行相似度计算,以得到所述至少一个文本向量对应的文本相似度矩阵,包括:根据分布式计算方法,计算所述至少一个文本向量中的任意两个文本向量之间的相似度;根据各个文本向量之间的相似度,构建所述至少一个文本向量对应的文本相似度矩阵。4.根据权利要求1所述方法,其特征在于,所述切分所述文本相似度矩阵得到K个文本相似度块,包括:对所述文本相似度矩阵按行进行扫描,以获取所述文本相似度矩阵包括的至少一个行向量;统计所述至少一个行向量中每个行向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量;将所述至少一个行向量中对应的有效元素的数量大于或等于切分数量阈值的行向量作为所述文本相似度块,得到K个文本相似度块。5.根据权利要求4所述方法,其特征在于,所述根据所述K个文本相似度块,得到N个文本类簇,包括:计算所述K个文本相似度块中任意两个文本相似度块之间的重合度;根据所述任意两个文本相似度块之间的重合度从所述K个文本相似度块...

【专利技术属性】
技术研发人员:杨全
申请(专利权)人:数网金融有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1