基于话题描述的文本聚类方法、电子设备和存储介质技术

技术编号：37465017 阅读：11 留言：0更新日期：2023-05-06 09:38

本发明专利技术提供了一种基于话题描述的文本聚类方法、电子设备和存储介质，方法包括：首先对待聚类的每个文本生成一个话题描述，然后将该话题描述输入话题描述特征生成模型，提取话题描述的特征，作为当前文本的话题描述特征，基于该特征，对文本进行聚类，相较于直接使用原始文本提取的特征进行聚类，使用生成的话题描述特征进行聚类，减少了文本内容形式多样导致的噪声干扰，提高了聚类准确性。聚类后，基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度，对聚类结果进行清洗和合并，最后得到聚类结果和每个话题的话题描述，能够使得聚类结果更加准确。能够使得聚类结果更加准确。能够使得聚类结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
基于话题描述的文本聚类方法、电子设备和存储介质

[0001]本专利技术涉及自然语言处理领域，特别是涉及一种基于话题描述的文本聚类方法、电子设备和存储介质。

技术介绍

[0002]将文本中的信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用。然而由于文本信息覆盖面非常广，每天产生的文本信息数目也非常巨大，这对文本聚类的实际应用提出了一些挑战。已有的文本聚类算法，大都是基于词频统计、TF
‑
IDF、向量空间模型、深度学习模型等学习文本的特征，然而文本内容复杂多样，描述相似话题的文本也可能有不同的文本内容形式，不同的文本内容形式，描述相似或相同的话题，无论用什么特征提取方法，都会因为文本内容、形式多样而产生影响，这无疑给文本聚类的准确性带来挑战。因此有必要尽量降低因为复杂多样的文本内容，对聚类结果产生的影响。
[0003]已有的基于话题描述的文本聚类方法，大都没有对聚类后的结果进行优化。基于kmeans的算法通常都需要设置聚类个数，通常都是随机设置k个聚类个数，或基于轮廓系数、肘部法则等方法确定聚类个数，但是这些方法也不能确保聚类个数的准确性，而且也会有文本被错误聚类的情况。基于single
‑
pass的方法虽然不需要设置聚类个数，但是也会有文本被错误聚类的情况，已有的方法均没有对聚类后的结果进行清洗和优化。因此，需要提出一种新的文本聚类后清洗和优化的方法，以解决目前的文本聚类结果不准确的问题。

技术实现思路

[0004]针对上述技术问题，本专利技术采...

【技术保护点】

【技术特征摘要】
1.一种基于话题描述的文本聚类方法，其特征在于，所述方法包括如下步骤：S100，获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量；S200，基于待聚类文本中的所有文本对应的话题描述特征向量，通过设定聚类方法对待聚类文本进行聚类，得到多个类别，每个类别对应一个话题；S300，获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量；当前话题中的初始话题为S200中得到的话题；S400，基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度，对当前话题进行第p次清洗处理，得到处理后的n（p）个话题，p的初始化数值为1；其中，n（p）个话题中的任一话题a满足如下条件：SF
aq
≥D1
p
并且ST
aq
≥D2
p
；其中，SF
aq
为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度，ST
aq
为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度；D1
p
为第p次清洗处理对应的第一设定阈值，D2
p
为第p次清洗处理对应的第二设定阈值；a的取值为1到n（p）；q的取值为1到f（a），f（a）为话题a中的文本数量；S500，设置p=p+1，如果p≤C0，C0为预设次数，执行S300；否则，得到清洗处理后的H个话题，执行S600；S600，基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S，并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量，u的取值为1到H；S700，基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理，得到目标话题列表；S800，输出目标话题列表中的所有话题的话题描述和对应的文本，其中，每个话题对应的文本为按照文本发布时间进行排序后的文本。2.根据权利要求1所述的基于话题描述的文本聚类方法，其特征在于，S400具体包括：S410，对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T
ij
，分别获取SF
pij
和ST
pij
，如果SF
pij
≥D1
p
并且ST
pij
≥D2
p
，则将T
ij
保留在话题i中，执行S440；否则，执行S420；其中， SF
pij
为第p次清洗处理时T
ij
的特征向量和话题i的话题特征向量之间的相似度，ST
pij
为第p次清洗处理时T
ij
的话题描述特征向量和话题i的话题描述特征向量之间的相似度；i的取值为1到k，k为当前话题的数量；j的取值为1到f（i），f（i）为话题i中的文本数量；S420，获取SF
psij
和ST
psij
，如果SF
psij
≥D1
p
并且ST
psij ≥D2 p
，则将T
ij
加入到话题s中并从原话题中删除，执行S440；否则，执行S430；其中，话题s为当前话题中除话题i之外的（k
‑
1）个话题中的第s个话题，SF
psij
为第p次清洗处理时T
ij
的特征向量和话题s的话题特征向量之间的相似度，ST
psij
为第p次清洗处理时T
ij
的话题描述特征向量和话题s的话题描述特征向量之间的相似度，s的取值为1到k
‑
1；S430，设置s=s+1，如果s≤（k
‑
1），执行S420，否则，为T
ij
创建一个新话题，并将T
ij
加入到对应的新话题中并从原话题中删除，设置k=k+1，并执行S440；S440，设置j=j+1，如果j≤f（i），执行S410；否则，设置i=i+1，如果i≤k，执行S410，否则，执行S500。3.根据权利要求1所述的基于话题描述的文本聚类方法，其特征在于，S700具体包括：S710，获取S1
uv
和S2
uv
，如果S1
uv
≥D3并且S2
uv
≥D4，则将话题u和话题v进行合并，执行
S730；否则，...

【专利技术属性】
技术研发人员：罗引，郭鸿飞，王俊艳，蔡昌艳，蒋永余，徐才，王婧宜，王宇琪，曹家，王磊，
申请(专利权)人：新华融合媒体科技发展北京有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人