【技术实现步骤摘要】
一种基于话题描述的文本聚类清洗和合并方法
[0001]本专利技术涉及自然语言处理领域,特别是涉及一种基于话题描述的文本聚类清洗和合并方法。
技术介绍
[0002]将文本中的信息按照相应的主题进行文本聚类在文本处理领域有着非常重要的应用。然而由于文本信息覆盖面非常广,每天产生的文本信息数目也非常巨大,这对文本聚类的实际应用提出了一些挑战。已有的文本聚类算法,大都是基于kmeans算法等文本聚类算法对多篇文本进行聚类,但是并没有对聚类后的结果进行优化。基于kmeans的算法通常都需要设置聚类个数,通常都是随机设置k个聚类个数,或基于轮廓系数、肘部法则等方法确定聚类个数,但是这些方法也不能确保聚类个数的准确性,而且也会有文本被错误聚类的情况。基于single
‑
pass的方法虽然不需要设置聚类个数,但是也会有文本被错误聚类的情况,已有的方法均没有对聚类后的结果进行清洗和合并。
技术实现思路
[0003]针对上述技术问题,本专利技术采用的技术方案为:
[0004]本专利技术实施例提供一种基于话题描述的文本聚类清洗和合并方法,所述方法包括如下步骤:
[0005]S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;
[0006]S200,基于获取的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;
[0007]S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量;
[0008 ...
【技术保护点】
【技术特征摘要】
1.一种基于话题描述的文本聚类清洗和合并方法,其特征在于,所述方法包括如下步骤:S100,获取待聚类文本中的每个文本的特征向量和关键词,每个文本包括h个关键词;S200,基于获取的特征向量,利用设定聚类算法对待聚类文本进行聚类,得到多个话题;S300,获取当前话题中的任一话题中的任一文本以及任一话题的关键词、特征向量和话题描述特征向量;S400,基于文本和话题之间的关键词相同的数量、文本和话题的特征向量之间的相似度以及文本和话题的话题描述特征向量之间的相似度对当前话题进行第p次清洗处理,得到处理后的n(p)个话题;其中,n(p)个话题中的任一话题a满足如下条件:g
p
(a,q)≥D1
p
,SF
paq
≥D2
p
并且ST
paq
≥D3
p
;其中,g
p
(a,q)为话题a和话题a中的第q个文本T
aq
之间的关键词相同的数量,SF
paq
为话题a的特征向量和T
aq
的特征向量之间的相似度,ST
paq
为话题a的话题描述特征向量和T
aq
的话题描述特征向量之间的相似度;D1
p
为第p次清洗处理对应的第一设定阈值,D2
p
为第p次清洗处理对应的第二设定阈值,D3
p
为第p次清洗处理对应的第三设定阈值;a的取值为1到n(p),p的取值为1到C0,C0为预设次数;q的取值为1到f(a),f(a)为话题a中的文本数量;S500,设置p=p+1,如果p≤C0,执行S300;否则,得到清洗处理后的H个话题,执行S600;S600,基于H个话题获取按照文本数量递减的方式进行排序得到的话题列表S,并获取S中的任一话题u对应的关键词、特征向量、话题描述和话题描述特征向量,u的取值为1到H;S700,基于话题之间的关键词相同的数量、话题的特征向量之间的相似度以及话题的话题描述特征向量之间的相似度对S进行合并处理,得到目标话题列表;S800,输出目标话题列表中的所有话题的话题描述和对应的文本,其中,每个话题对应的文本为按照文本发布时间进行排序后的文本。2.根据权利要求1所述的方法,其特征在于,S400具体包括:S410,对于第p次清洗处理对应的当前话题中的话题i中的第j个文本T
ij
,分别获取g
p
(i,j)、SF
pij
和ST
pij
,如果g
p
(i,j)≥D1
p
,并且SF
pij
≥D2
p
以及ST
pij
≥D3
p
,则将T
ij
保留在话题i中,执行S440;否则,执行S420;其中,g
p
(i,j)为第p次清洗处理时T
ij
和话题i之间的关键词相同的数量,SF
pij
为第p次清洗处理时T
ij
的特征向量和话题i的话题特征向量之间的相似度,ST
pij
为第p次清洗处理时T
ij
的话题描述特征向量和话题i的话题描述特征向量之间的相似度;i的取值为1到k,k为当前话题的数量;j的取值为1到f(i),f(i)为话题i中的文本数量;S420,获取g
p
(ij,s)、SF
psij
和ST
psij
,如果g
p
(ij,s)≥D1
p
,并且SF
psij
≥D2
p
以及ST
psij
≥D3 p
,则将T
ij
加入到话题s中并从原话题中删除,执行S440;否则,执行S430;其中,话题s为当前话题中除话题i之外的k
‑
1个话题中的第s个话题,g
p
(ij,s)为第p次清洗处理时T
ij
和话题s之间的关键词相同的数量,SF
psij
为第p次清洗处理时T
ij
的特征向量和话题s的话题特征向量之间的相似度,ST
psij
为第p次清洗处理时T
ij
的话题描述特征向量和话题s的话题描述特征向量之间的相似度,s的取值为1到k
‑
1;S430,设置s=s+1,如果s≤(k
‑
1),执行S420,否则,为T
ij
创建一个新话题,并将T
ij
加入到对应的新话题中并从原话题中删除,设置k=k+1,并执行S440;
S440,设置j=j+1,如果j≤f(i),执行S410;否则,设置i=i+1,如果i≤k,执行...
【专利技术属性】
技术研发人员:王磊,郭鸿飞,王俊艳,徐才,王柯淇,蔡昌艳,蒋永余,王璋盛,曹家,罗引,
申请(专利权)人:新华融合媒体科技发展北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。