文本聚类方法、装置、存储介质及计算机设备制造方法及图纸

技术编号:38463552 阅读:10 留言:0更新日期:2023-08-11 14:40
本发明专利技术公开了一种文本聚类方法、装置、存储介质及计算机设备,涉及信息技术领域,主要在于能够提高文本的聚类准确度。其中方法包括:获取多个待聚类文本;确定各所述待聚类文本中包含的各个字符,并确定所述各个字符对应的字符向量;基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数;基于所述各个字符对应的字符向量和所述权重系数,确定各所述待聚类文本对应的文本语义向量;根据各所述待聚类文本对应的文本语义向量,利用预设聚类算法对各所述待聚类文本进行聚类,得到不同聚类类别下的文本。本发明专利技术适用于数字医疗场景。本发明专利技术适用于数字医疗场景。本发明专利技术适用于数字医疗场景。

【技术实现步骤摘要】
文本聚类方法、装置、存储介质及计算机设备


[0001]本专利技术涉及信息
,尤其是涉及一种文本聚类方法、装置、存储介质及计算机设备。

技术介绍

[0002]在自然语言处理(nature language process NLP)领域中,对海量文本进行聚类一直占有重要的角色,例如,为了对病人进行更好的治疗,需要对病人的过往病例文本进行聚类,以此来更加准确地确定病人的病情。
[0003]目前,通常根据各个文本中包含的相同词语的数量来对各个文本进行聚类,即若两个文本中包含相同词语的数量较多,则将这两个文本归为同一类别。然而,不同词语在不同文本中可能代表不同含义,这种通过相同词语数量来对文本进行聚类的方式,导致文本的聚类准确度较低。

技术实现思路

[0004]本专利技术提供了一种文本聚类方法、装置、存储介质及计算机设备,主要在于能够提高文本的聚类准确度。
[0005]根据本专利技术的第一个方面,提供一种文本聚类方法,包括:
[0006]获取多个待聚类文本;
[0007]确定各所述待聚类文本中包含的各个字符,并确定所述各个字符对应的字符向量;
[0008]基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数;
[0009]基于所述各个字符对应的字符向量和所述权重系数,确定各所述待聚类文本对应的文本语义向量;
[0010]根据各所述待聚类文本对应的文本语义向量,利用预设聚类算法对各所述待聚类文本进行聚类,得到不同聚类类别下的文本。
[0011]可选地,在所述确定各所述待聚类文本中包含的各个字符之前,所述方法还包括:
[0012]在各所述待聚类文本中确定文本长度小于预设长度阈值的短文本,并在各所述待聚类文本中将所述短文本删除,得到剩余待聚类文本;
[0013]删除所述剩余待聚类文本中的空白符,得到处理后的剩余待聚类文本;
[0014]利用预设停用词库检测所述处理后的剩余待聚类文本中的停用词,并将所述处理后的剩余待聚类文本中的停用词删除,得到各个处理后的文本;
[0015]所述确定各所述待聚类文本中包含的各个字符,包括:
[0016]确定所述各个处理后的文本中包含的各个字符。
[0017]可选地,所述确定所述各个字符对应的字符向量,包括:
[0018]将所述各个字符输入至预设编码器中进行编码处理,得到所述各个字符对应的字
符向量。
[0019]可选地,所述基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数,包括:
[0020]基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的词频;
[0021]基于各所述待聚类文本对应的文本总数量,计算所述各个字符对应的逆文本频率;
[0022]将所述各个字符对应的词频和逆文本频率相乘,得到所述各个字符在各所述待聚类文本中的权重系数。
[0023]可选地,所述基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的词频,包括:
[0024]在所述各个字符中确定目标字符,以及在各所述待聚类文本中确定目标文本;
[0025]将所述目标字符在所述目标文本中出现的字符次数与所述目标文本中包含的字符总数量相除,得到所述目标字符在所述目标文本中的词频;
[0026]所述基于各所述待聚类文本对应的文本总数量,计算所述各个字符对应的逆文本频率,包括:
[0027]在各所述待聚类文本中确定包含所述目标字符的命中文本,并确定所述命中文本对应的命中文本数量;
[0028]将所述命中文本数量与1相加,得到命中文本数量调优值;
[0029]将各所述待聚类文本对应的文本总数量与所述命中文本数量调优值相除,得到所述目标字符对应的逆频参考值;
[0030]将所述逆频参考值取对数,得到所述目标字符对应的逆文本频率。
[0031]可选地,所述基于所述各个字符对应的字符向量和所述权重系数,确定各所述待聚类文本对应的文本语义向量,包括:
[0032]在各所述待聚类文本中确定任意文本,并将所述任意文本中各个字符的字符向量与对应权重系数相乘,得到所述任意文本中各个字符对应的优化向量;
[0033]将所述任意文本中各个字符对应的优化向量相加,并将相加结果与所述任意文本对应的文本长度相除,得到所述任意文本对应的文本语义向量。
[0034]可选地,所述根据各所述待聚类文本对应的文本语义向量,利用预设聚类算法对各所述待聚类文本进行聚类,得到不同聚类类别下的文本,包括:
[0035]初始化不同团簇对应的质心向量;
[0036]计算各所述文本语义向量与所述不同团簇对应的质心向量之间的余弦相似度,并基于所述不同团簇对应的余弦相似度,将各所述待聚类文本划分到所述不同团簇中;
[0037]基于所述不同团簇中待聚类文本对应的文本语义向量,得到所述不同团簇对应的更新后的质心向量;
[0038]基于所述更新后的质心向量,重新将各所述待聚类文本划分到所述不同团簇中,直至所述更新后的质心向量不发生变化,将最终划分到所述不同团簇中的待聚类文本,确定为所述不同聚类类别下的文本。
[0039]根据本专利技术的第二个方面,提供一种文本聚类装置,包括:
[0040]获取单元,用于获取多个待聚类文本;
[0041]第一确定单元,用于确定各所述待聚类文本中包含的各个字符,并确定所述各个字符对应的字符向量;
[0042]计算单元,用于基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数;
[0043]第二确定单元,用于基于所述各个字符对应的字符向量和所述权重系数,确定各所述待聚类文本对应的文本语义向量;
[0044]聚类单元,用于根据各所述待聚类文本对应的文本语义向量,利用预设聚类算法对各所述待聚类文本进行聚类,得到不同聚类类别下的文本。
[0045]根据本专利技术的第三个方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现以上文本聚类方法。
[0046]根据本专利技术的第四个方面,提供一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现以上文本聚类方法。
[0047]根据本专利技术提供的一种文本聚类方法、装置、存储介质及计算机设备,与目前根据相同词语出现数量来对文本进行聚类的方式相比,本专利技术通过获取多个待聚类文本;并确定各所述待聚类文本中包含的各个字符,并确定所述各个字符对应的字符向量;与此同时,基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数;之后基于所述各个字符对应的字符向量和所述权重系数,确定各所述待聚类文本对应的文本语义向量;最终根据各所述本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:获取多个待聚类文本;确定各所述待聚类文本中包含的各个字符,并确定所述各个字符对应的字符向量;基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数;基于所述各个字符对应的字符向量和所述权重系数,确定各所述待聚类文本对应的文本语义向量;根据各所述待聚类文本对应的文本语义向量,利用预设聚类算法对各所述待聚类文本进行聚类,得到不同聚类类别下的文本。2.根据权利要求1所述的方法,其特征在于,在所述确定各所述待聚类文本中包含的各个字符之前,所述方法还包括:在各所述待聚类文本中确定文本长度小于预设长度阈值的短文本,并在各所述待聚类文本中将所述短文本删除,得到剩余待聚类文本;删除所述剩余待聚类文本中的空白符,得到处理后的剩余待聚类文本;利用预设停用词库检测所述处理后的剩余待聚类文本中的停用词,并将所述处理后的剩余待聚类文本中的停用词删除,得到各个处理后的文本;所述确定各所述待聚类文本中包含的各个字符,包括:确定所述各个处理后的文本中包含的各个字符。3.根据权利要求1所述的方法,其特征在于,所述确定所述各个字符对应的字符向量,包括:将所述各个字符输入至预设编码器中进行编码处理,得到所述各个字符对应的字符向量。4.根据权利要求1所述的方法,其特征在于,所述基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的权重系数,包括:基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的词频;基于各所述待聚类文本对应的文本总数量,计算所述各个字符对应的逆文本频率;将所述各个字符对应的词频和逆文本频率相乘,得到所述各个字符在各所述待聚类文本中的权重系数。5.根据权利要求1所述的方法,其特征在于,所述基于所述各个字符在各所述待聚类文本中出现的次数,计算所述各个字符在各所述待聚类文本中的词频,包括:在所述各个字符中确定目标字符,以及在各所述待聚类文本中确定目标文本;将所述目标字符在所述目标文本中出现的字符次数与所述目标文本中包含的字符总数量相除,得到所述目标字符在所述目标文本中的词频;所述基于各所述待聚类文本对应的文本总数量,计算所述各个字符对应的逆文本频率,包括:在各所述待聚类文本中确定包含所述目标字符的命中文本,并确定所述命中文本对应的命中文本数量;将所述命中文本数量与1...

【专利技术属性】
技术研发人员:陈浩
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1