文本聚类方法、装置及可读存储介质制造方法及图纸

技术编号：31886118 阅读：17 留言：0更新日期：2022-01-15 12:10

本发明专利技术实施例公开了一种文本聚类方法、装置及可读存储介质，该文本聚类方法包括：获取至少一个文本语料；对该至少一个文本语料中每个文本语料进行向量化处理，以得到至少一个文本语料对应的至少一个文本向量；对该至少一个文本向量进行相似度计算，以得到至少一个文本向量对应的文本相似度矩阵；切分该文本相似度矩阵得到K个文本相似度块，并根据该K个文本相似度块，得到N个文本类簇，该K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值，且该相似度的数量大于或等于切分数量阈值，其中，K为大于或等于1的整数，N为小于或等于K的正整数。采用这样的文本聚类方法，可以提升聚类速度和聚类结果的准确性。可以提升聚类速度和聚类结果的准确性。可以提升聚类速度和聚类结果的准确性。

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类方法、装置及可读存储介质

[0001]本专利技术涉及自然语言处理应用领域，尤其涉及一种文本聚类方法、装置、服务器及可读存储介质。

技术介绍

[0002]智能客服机器人在功能上主要表现为智能问答、引导客户自助服务等，通常能快速解决大部分客户的问题，提高客服接待效率和提升客户满意度。文本作为信息数据的主要信息载体之一，在智能客服机器人系统中发挥着重要作用。
[0003]为了能让智能客服机器人根据客户问题匹配出最佳的回答，需要对大量的客户问题进行文本信息聚类。但是，由于文本聚类算法的空间复杂度较高且文本信息数据存在类间距不均的情况，造成在进行文本信息聚类时文本聚类速度慢、聚类效率较低以及聚类结果准确性较低的问题。
[0004]可见，如何在进行文本聚类任务时，提升聚类速度和聚类结果的准确性是一个亟待解决的问题。

技术实现思路

[0005]本专利技术实施例提供了一种文本聚类方法、装置、服务器及可读存储介质，采用这样的文本聚类方法，可以在进行文本聚类任务时提升聚类速度和聚类结果的准确性。
[0006]第一方面，本专利技术实施例提供了一种文本聚类方法，所述方法包括：
[0007]获取至少一个文本语料；
[0008]对所述至少一个文本语料中每个文本语料进行向量化处理，以得到所述至少一个文本语料对应的至少一个文本向量；
[0009]对所述至少一个文本向量进行相似度计算，以得到所述至少一个文本向量对应的文本相似度矩阵；
[0010]切分所述文本相似度矩阵得到...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法，其特征在于，所述方法包括：获取至少一个文本语料；对所述至少一个文本语料中每个文本语料进行向量化处理，以得到所述至少一个文本语料对应的至少一个文本向量；对所述至少一个文本向量进行相似度计算，以得到所述至少一个文本向量对应的文本相似度矩阵；切分所述文本相似度矩阵得到K个文本相似度块，并根据所述K个文本相似度块，得到N个文本类簇，所述K个文本相似度块中每个文本相似度块包括的相似度均大于或等于相似度阈值，且所述相似度的数量大于或等于切分数量阈值，所述K为大于或等于1的整数，所述N为小于或等于所述K的正整数。2.根据权利要求1所述的方法，其特征在于，所述对所述至少一个文本语料中每个文本语料进行向量化处理，以得到所述至少一个文本语料对应的至少一个文本向量，包括：对所述至少一个文本语料中的每个文本语料进行分词处理，得到所述每个文本语料包括的各个分词，并对所述各个分词进行词性标注；计算所述各个分词在所述每个文本语料中的逆文档频率值；根据词性标注结果和所述各个分词在所述每个文本语料中的逆文档频率值，对所述每个文本语料进行向量化处理，得到所述至少一个文本语料对应的至少一个文本向量。3.根据权利要求1或2所述方法，其特征在于，所述对所述至少一个文本向量进行相似度计算，以得到所述至少一个文本向量对应的文本相似度矩阵，包括：根据分布式计算方法，计算所述至少一个文本向量中的任意两个文本向量之间的相似度；根据各个文本向量之间的相似度，构建所述至少一个文本向量对应的文本相似度矩阵。4.根据权利要求1所述方法，其特征在于，所述切分所述文本相似度矩阵得到K个文本相似度块，包括：对所述文本相似度矩阵按行进行扫描，以获取所述文本相似度矩阵包括的至少一个行向量；统计所述至少一个行向量中每个行向量包括的元素中对应的相似度大于或等于相似度阈值的有效元素的数量；将所述至少一个行向量中对应的有效元素的数量大于或等于切分数量阈值的行向量作为所述文本相似度块，得到K个文本相似度块。5.根据权利要求4所述方法，其特征在于，所述根据所述K个文本相似度块，得到N个文本类簇，包括：计算所述K个文本相似度块中任意两个文本相似度块之间的重合度；根据所述任意两个文本相似度块之间的重合度从所述K个文本相似度块...

【专利技术属性】
技术研发人员：杨全，
申请(专利权)人：数网金融有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人