基于话题描述的文本聚类方法、电子设备和存储介质技术

技术编号:37465017 阅读:11 留言:0更新日期:2023-05-06 09:38
本发明专利技术提供了一种基于话题描述的文本聚类方法、电子设备和存储介质,方法包括:首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,减少了文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。能够使得聚类结果更加准确。能够使得聚类结果更加准确。

【技术实现步骤摘要】
基于话题描述的文本聚类方法、电子设备和存储介质


[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于话题描述的文本聚类方法、电子设备和存储介质。

技术介绍

[0002]将文本中的信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用。然而由于文本信息覆盖面非常广,每天产生的文本信息数目也非常巨大,这对文本聚类的实际应用提出了一些挑战。已有的文本聚类算法,大都是基于词频统计、TF

IDF、向量空间模型、深度学习模型等学习文本的特征,然而文本内容复杂多样,描述相似话题的文本也可能有不同的文本内容形式,不同的文本内容形式,描述相似或相同的话题,无论用什么特征提取方法,都会因为文本内容、形式多样而产生影响,这无疑给文本聚类的准确性带来挑战。因此有必要尽量降低因为复杂多样的文本内容,对聚类结果产生的影响。
[0003]已有的基于话题描述的文本聚类方法,大都没有对聚类后的结果进行优化。基于kmeans的算法通常都需要设置聚类个数,通常都是随机设置k个聚类个数,或基于轮廓系数、肘部法则等方法确定聚类个数,但是这些方法也不能确保聚类个数的准确性,而且也会有文本被错误聚类的情况。基于single

pass的方法虽然不需要设置聚类个数,但是也会有文本被错误聚类的情况,已有的方法均没有对聚类后的结果进行清洗和优化。因此,需要提出一种新的文本聚类后清洗和优化的方法,以解决目前的文本聚类结果不准确的问题。

技术实现思路

[0004]针对上述技术问题,本专利技术采用的技术方案为:本专利技术实施例提供了一种基于话题描述的文本聚类方法,所述方法包括如下步骤:S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量;S200,基于待聚类文本中的所有文本对应的话题描述特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题;S300,获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量;当前话题中的初始话题为S200中得到的话题;S400,基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度,对当前话题进行第p次清洗处理,得到处理后的n(p)个话题,p的初始化数值为1;其中,n(p)个话题中的任一话题a满足如下条件:SF
aq
≥D1
p
并且ST
aq
≥D2
p
;其中,SF
aq
为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度,ST
aq
为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;a的取值
为1到n(p);q的取值为1到f(a),f(a)为话题a中的文本数量;S500,设置p=p+1,如果p≤C0,C0为预设次数,执行S300;否则,得到清洗处理后的H个话题,执行S600;S600,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量,u的取值为1到H;S700,基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。
[0005]本专利技术实施例还提供一种非瞬时性计算机可读存储介质,所述存储介质中存储有至少一条指令或至少一段程序,所述至少一条指令或所述至少一段程序由处理器加载并执行以实现前述方法。
[0006]本专利技术实施例还提供一种电子设备,包括处理器和前述的非瞬时性计算机可读存储介质。
[0007]本专利技术至少具有以下有益效果:本专利技术实施例提供的基于话题描述的文本聚类方法,首先对待聚类的每个文本生成一个话题描述,然后将该话题描述输入话题描述特征生成模型,提取话题描述的特征,作为当前文本的话题描述特征,基于该特征,对文本进行聚类,相较于直接使用原始文本提取的特征进行聚类,使用生成的话题描述特征进行聚类,能够减少文本内容形式多样导致的噪声干扰,提高了聚类准确性。聚类后,基于文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度,对聚类结果进行清洗和合并,最后得到聚类结果和每个话题的话题描述,能够使得聚类结果更加准确。
附图说明
[0008]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0009]图1为本专利技术实施例提供的基于话题描述的文本聚类方法的流程图。
具体实施方式
[0010]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0011]本专利技术实施例提供一种基于话题描述的文本聚类方法,如图1所示,所述方法可包括如下步骤:S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量。在本专利技术实施例中,文本可为新闻文本,也可为其它类型的文本。文本可通过从各个
网站或渠道爬取得到。在本专利技术实施例中,可通过现有的特征提取方法获取每个文本的特征向量。在一个示意性实施例中,可通过RoFormer

Sim模型获取每个文本的特征向量。由于有的文本过长且过长的文本对相似度检索的准确率有影响,而文本标题能大致概括新闻的主要内容,因此,可采用文本的标题作为文本的表示,因此,可将文本的标题输入到RoFormer

Sim模型中,得到每个文本的特征向量。
[0012]在本专利技术实施例中,任一文本的话题描述特征向量可通过如下步骤获取:S101,将任一文本的标题输入训练好的话题描述生成模型中,得到对应的话题描述。
[0013]在本专利技术实施例中,话题描述生成模型可为训练后的T5或BART预训练模型。话题描述生成模型的训练步骤包括:(1)构建数据集对于聚类后的所有话题,人工选择若干话题进行数据集标注。对于选择的每个话题,随机选择若干篇文本,人工生成它们的话题描述,每个新闻对应一个话题描述,描述相同话题的新闻,其对应的话题描述也尽可能相同。将每篇新闻的标题作为生成模型的输入,人工生成的话题描述作为模型的真实值构建训练数据集。如果文本没有标题,可使用文本的第一段作为模型的输入。
[0014]在本专利技术实施例中,话题描述可以认为是当前文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于话题描述的文本聚类方法,其特征在于,所述方法包括如下步骤:S100,获取待聚类文本中的每个文本对应的特征向量、话题描述和话题描述特征向量;S200,基于待聚类文本中的所有文本对应的话题描述特征向量,通过设定聚类方法对待聚类文本进行聚类,得到多个类别,每个类别对应一个话题;S300,获取当前话题中的任一话题中的任一文本以及任一话题的特征向量、话题描述和话题描述特征向量;当前话题中的初始话题为S200中得到的话题;S400,基于文本和话题分别对应的特征向量之间的相似度以及文本和话题分别对应的话题描述特征向量之间的相似度,对当前话题进行第p次清洗处理,得到处理后的n(p)个话题,p的初始化数值为1;其中,n(p)个话题中的任一话题a满足如下条件:SF
aq
≥D1
p
并且ST
aq
≥D2
p
;其中,SF
aq
为话题a对应的特征向量和话题a中的任一文本q的特征向量之间的相似度,ST
aq
为话题a对应的话题描述特征向量和话题a中任一文本q的话题描述特征向量之间的相似度;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值;a的取值为1到n(p);q的取值为1到f(a),f(a)为话题a中的文本数量;S500,设置p=p+1,如果p≤C0,C0为预设次数,执行S300;否则,得到清洗处理后的H个话题,执行S600;S600,基于H个话题获取按照文本数量递减的方式进行排序得到话题列表S,并获取S中的任一话题u对应的特征向量、话题描述和话题描述特征向量,u的取值为1到H;S700,基于话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。2.根据权利要求1所述的基于话题描述的文本聚类方法,其特征在于,S400具体包括:S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T
ij
,分别获取SF
pij
和ST
pij
,如果SF
pij
≥D1
p
并且ST
pij
≥D2
p
,则将T
ij
保留在话题i中,执行S440;否则,执行S420;其中, SF
pij
为第p次清洗处理时T
ij
的特征向量和话题i的话题特征向量之间的相似度,ST
pij
为第p次清洗处理时T
ij
的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;S420,获取SF
psij
和ST
psij
,如果SF
psij
≥D1
p
并且ST
psij ≥D2 p
,则将T
ij
加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的(k

1)个话题中的第s个话题,SF
psij
为第p次清洗处理时T
ij
的特征向量和话题s的话题特征向量之间的相似度,ST
psij
为第p次清洗处理时T
ij
的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k

1;S430,设置s=s+1,如果s≤(k

1),执行S420,否则,为T
ij
创建一个新话题,并将T
ij
加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行S410,否则,执行S500。3.根据权利要求1所述的基于话题描述的文本聚类方法,其特征在于,S700具体包括:S710,获取S1
uv
和S2
uv
,如果S1
uv
≥D3并且S2
uv
≥D4,则将话题u和话题v进行合并,执行
S730;否则,...

【专利技术属性】
技术研发人员:罗引郭鸿飞王俊艳蔡昌艳蒋永余徐才王婧宜王宇琪曹家王磊
申请(专利权)人:新华融合媒体科技发展北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1