【技术实现步骤摘要】
文本处理方法、装置、设备及存储介质
[0001]本申请涉及人工智能
,更具体地说,涉及一种文本处理方法
、
装置
、
设备及存储介质
。
技术介绍
[0002]目前,为方便用户从多个文本中快速找到所需要的文本,会提取各个文本的主题信息,然后将各个文本的主题信息进行聚类,将聚类后的主题信息展示给用户,方便用户根据聚类后的主题信息了解各文本的内容
。
[0003]然而,目前的聚类方法在文本数量比较大的情况下能够取得较好的聚类效果,在文本数量比较小时的聚类效果则较差
。
技术实现思路
[0004]有鉴于此,本申请提供了一种文本处理方法
、
装置
、
设备及存储介质,以提高文本数量较小情况下的聚类效果
。
[0005]为了实现上述目的,现提出的方案如下:
[0006]一种文本处理方法,包括:
[0007]获得
n
个文本中各个文本的主题信息;
[0008]对应获得的所述
n
个主题信息的
n
个可能的分类数中的任一大于1且小于
n
的分类数
k
,对所述
n
个主题信息进行1次或多次聚类处理,得到所述分类数
k
对应的1个或多个聚类结果;其中,所述多次聚类处理采用了至少两种相似度度量方法和
/
或采用了从所述
n
个主题信息中选 ...
【技术保护点】
【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:获得
n
个文本中各个文本的主题信息;对应获得的所述
n
个主题信息的
n
个可能的分类数中的任一大于1且小于
n
的分类数
k
,对所述
n
个主题信息进行1次或多次聚类处理,得到所述分类数
k
对应的1个或多个聚类结果;其中,所述多次聚类处理采用了至少两种相似度度量方法和
/
或采用了从所述
n
个主题信息中选择
k
个主题信息作为
k
个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和
/
或不同次聚类作为
k
个初始聚类中心的主题信息不同;基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果
。2.
根据权利要求1所述的方法,其特征在于,对所述
n
个主题信息进行多次聚类处理,包括:获得从所述
n
个主题信息中取出
k
个不同的主题信息作为一个组合的多个组合;对于任一组合中的
k
个主题信息,以该任一组合中的
k
个主题信息作为
k
个初始聚类中心,对所述
n
个主题信息进行一次聚类处理,得到该任一组合对应的一个聚类结果;或者,对于任一组合中的
k
个主题信息,以该任一组合中的
k
个主题信息作为
k
个初始聚类中心,对所述
n
个主题信息进行
m
次聚类处理,得到该任一组合对应的
m
个聚类结果;其中,
m
为大于1的整数,所述
m
次聚类处理中,不同次聚类的初始聚类中心相同,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度
。3.
根据权利要求1所述的方法,其特征在于,所述对所述
n
个主题信息进行1次或多次聚类处理,包括:在所述
n
个主题信息中取出
k
个不同的主题信息作为目标初始聚类中心;基于所述目标初始聚类中心对所述
n
个主题信息进行一次聚类处理,得到一个聚类结果;或者,基于所述目标初始聚类中心对所述
n
个主题信息进行
m
次聚类处理,得到
m
个聚类结果;其中,
m
为大于1的整数,所述
m
次聚类处理中,不同次聚类的初始聚类中心为所述目标初始聚类中心,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度
。4.
根据权利要求1‑3任一项所述的方法,其特征在于,所述基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果,包括:获得所述所有聚类结果中各个聚类结果...
【专利技术属性】
技术研发人员:张轶鑫,王宝鑫,伍大勇,王士进,
申请(专利权)人:科大讯飞股份有限公司科大讯飞北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。