文本聚类方法、装置、存储介质及计算机设备制造方法及图纸

技术编号：38463552 阅读：10 留言：0更新日期：2023-08-11 14:40

本发明专利技术公开了一种文本聚类方法、装置、存储介质及计算机设备，涉及信息技术领域，主要在于能够提高文本的聚类准确度。其中方法包括：获取多个待聚类文本；确定各所述待聚类文本中包含的各个字符，并确定所述各个字符对应的字符向量；基于所述各个字符在各所述待聚类文本中出现的次数，计算所述各个字符在各所述待聚类文本中的权重系数；基于所述各个字符对应的字符向量和所述权重系数，确定各所述待聚类文本对应的文本语义向量；根据各所述待聚类文本对应的文本语义向量，利用预设聚类算法对各所述待聚类文本进行聚类，得到不同聚类类别下的文本。本发明专利技术适用于数字医疗场景。本发明专利技术适用于数字医疗场景。本发明专利技术适用于数字医疗场景。

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类方法、装置、存储介质及计算机设备

[0001]本专利技术涉及信息
，尤其是涉及一种文本聚类方法、装置、存储介质及计算机设备。

技术介绍

[0002]在自然语言处理(nature language process NLP)领域中，对海量文本进行聚类一直占有重要的角色，例如，为了对病人进行更好的治疗，需要对病人的过往病例文本进行聚类，以此来更加准确地确定病人的病情。
[0003]目前，通常根据各个文本中包含的相同词语的数量来对各个文本进行聚类，即若两个文本中包含相同词语的数量较多，则将这两个文本归为同一类别。然而，不同词语在不同文本中可能代表不同含义，这种通过相同词语数量来对文本进行聚类的方式，导致文本的聚类准确度较低。

技术实现思路

[0004]本专利技术提供了一种文本聚类方法、装置、存储介质及计算机设备，主要在于能够提高文本的聚类准确度。
[0005]根据本专利技术的第一个方面，提供一种文本聚类方法，包括：
[0006]获取多个待聚类文本；
[0007]确定各所述待聚类文本中包含的各个字符，并确定所述各个字符对应的字符向量；
[0008]基于所述各个字符在各所述待聚类文本中出现的次数，计算所述各个字符在各所述待聚类文本中的权重系数；
[0009]基于所述各个字符对应的字符向量和所述权重系数，确定各所述待聚类文本对应的文本语义向量；
[0010]根据各所述待聚类文本对应的文本语义向量，利用预设聚类算法对各所述待聚类文本进行聚类，得到不...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法，其特征在于，包括：获取多个待聚类文本；确定各所述待聚类文本中包含的各个字符，并确定所述各个字符对应的字符向量；基于所述各个字符在各所述待聚类文本中出现的次数，计算所述各个字符在各所述待聚类文本中的权重系数；基于所述各个字符对应的字符向量和所述权重系数，确定各所述待聚类文本对应的文本语义向量；根据各所述待聚类文本对应的文本语义向量，利用预设聚类算法对各所述待聚类文本进行聚类，得到不同聚类类别下的文本。2.根据权利要求1所述的方法，其特征在于，在所述确定各所述待聚类文本中包含的各个字符之前，所述方法还包括：在各所述待聚类文本中确定文本长度小于预设长度阈值的短文本，并在各所述待聚类文本中将所述短文本删除，得到剩余待聚类文本；删除所述剩余待聚类文本中的空白符，得到处理后的剩余待聚类文本；利用预设停用词库检测所述处理后的剩余待聚类文本中的停用词，并将所述处理后的剩余待聚类文本中的停用词删除，得到各个处理后的文本；所述确定各所述待聚类文本中包含的各个字符，包括：确定所述各个处理后的文本中包含的各个字符。3.根据权利要求1所述的方法，其特征在于，所述确定所述各个字符对应的字符向量，包括：将所述各个字符输入至预设编码器中进行编码处理，得到所述各个字符对应的字符向量。4.根据权利要求1所述的方法，其特征在于，所述基于所述各个字符在各所述待聚类文本中出现的次数，计算所述各个字符在各所述待聚类文本中的权重系数，包括：基于所述各个字符在各所述待聚类文本中出现的次数，计算所述各个字符在各所述待聚类文本中的词频；基于各所述待聚类文本对应的文本总数量，计算所述各个字符对应的逆文本频率；将所述各个字符对应的词频和逆文本频率相乘，得到所述各个字符在各所述待聚类文本中的权重系数。5.根据权利要求1所述的方法，其特征在于，所述基于所述各个字符在各所述待聚类文本中出现的次数，计算所述各个字符在各所述待聚类文本中的词频，包括：在所述各个字符中确定目标字符，以及在各所述待聚类文本中确定目标文本；将所述目标字符在所述目标文本中出现的字符次数与所述目标文本中包含的字符总数量相除，得到所述目标字符在所述目标文本中的词频；所述基于各所述待聚类文本对应的文本总数量，计算所述各个字符对应的逆文本频率，包括：在各所述待聚类文本中确定包含所述目标字符的命中文本，并确定所述命中文本对应的命中文本数量；将所述命中文本数量与1...

【专利技术属性】
技术研发人员：陈浩，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人