文本处理方法技术

技术编号:39641559 阅读:9 留言:0更新日期:2023-12-09 11:08
本申请实施例公开了一种文本处理方法

【技术实现步骤摘要】
文本处理方法、装置、设备及存储介质


[0001]本申请涉及人工智能
,更具体地说,涉及一种文本处理方法

装置

设备及存储介质


技术介绍

[0002]目前,为方便用户从多个文本中快速找到所需要的文本,会提取各个文本的主题信息,然后将各个文本的主题信息进行聚类,将聚类后的主题信息展示给用户,方便用户根据聚类后的主题信息了解各文本的内容

[0003]然而,目前的聚类方法在文本数量比较大的情况下能够取得较好的聚类效果,在文本数量比较小时的聚类效果则较差


技术实现思路

[0004]有鉴于此,本申请提供了一种文本处理方法

装置

设备及存储介质,以提高文本数量较小情况下的聚类效果

[0005]为了实现上述目的,现提出的方案如下:
[0006]一种文本处理方法,包括:
[0007]获得
n
个文本中各个文本的主题信息;
[0008]对应获得的所述
n
个主题信息的
n
个可能的分类数中的任一大于1且小于
n
的分类数
k
,对所述
n
个主题信息进行1次或多次聚类处理,得到所述分类数
k
对应的1个或多个聚类结果;其中,所述多次聚类处理采用了至少两种相似度度量方法和
/
或采用了从所述
n
个主题信息中选
k
个主题信息作为
k
个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和
/
或不同次聚类作为
k
个初始聚类中心的主题信息不同;
[0009]基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果

[0010]上述方法,可选的,对所述
n
个主题信息进行多次聚类处理,包括:
[0011]获得从所述
n
个主题信息中取出
k
个不同的主题信息作为一个组合的多个组合;
[0012]对于任一组合中的
k
个主题信息,以该任一组合中的
k
个主题信息作为
k
个初始聚类中心,对所述
n
个主题信息进行一次聚类处理,得到该任一组合对应的一个聚类结果;或者,
[0013]对于任一组合中的
k
个主题信息,以该任一组合中的
k
个主题信息作为
k
个初始聚类中心,对所述
n
个主题信息进行
m
次聚类处理,得到该任一组合对应的
m
个聚类结果;其中,
m
为大于1的整数,所述
m
次聚类处理中,不同次聚类的初始聚类中心相同,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度

[0014]上述方法,可选的,所述对所述
n
个主题信息进行1次或多次聚类处理,包括:
[0015]在所述
n
个主题信息中取出
k
个不同的主题信息作为目标初始聚类中心;
[0016]基于所述目标初始聚类中心对所述
n
个主题信息进行一次聚类处理,得到一个聚类结果;或者,
[0017]基于所述目标初始聚类中心对所述
n
个主题信息进行
m
次聚类处理,得到
m
个聚类结果;其中,
m
为大于1的整数,所述
m
次聚类处理中,不同次聚类的初始聚类中心为所述目标初始聚类中心,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度

[0018]上述方法,可选的,所述基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果,包括:
[0019]获得所述所有聚类结果中各个聚类结果的评估指标;
[0020]在对所述
n
个主题信息进行1次或多次聚类处理,且所述多次聚类处理中的不同次聚类处理使用同一相似度度量方法衡量主题信息间的相似度的情况下,选择评估指标最优的聚类结果作为所述目标聚类结果

[0021]上述方法,可选的,每次聚类处理利用第一聚类方法对所述
n
个主题信息进行聚类;
[0022]所述基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果,包括:
[0023]获得所述所有聚类结果中各个聚类结果的评估指标;
[0024]在对所述
n
个主题信息进行多次聚类处理,且所述多次聚类处理采用了
m
种相似度度量方法的情况下,在对应同一相似度度量方法的各聚类结果中选择评估指标最优的聚类结果;
[0025]基于各个相似度度量方法对应的评估指标最优的聚类结果,对所述
n
个主题信息中的任意两个主题信息属于同一类进行投票,将所述任意两个主题信息被投票的比例确定为所述任意两个主题信息的投票相似度;
[0026]基于主题信息间的投票相似度,利用第二聚类方法对所述
n
个主题信息进行聚类,得到所述目标聚类结果

[0027]上述方法,可选的,所述第一聚类方法包括:
K
均值聚类法;所述第二聚类方法包括:层次聚类法或最大最小距离法

[0028]上述方法,可选的,还包括:
[0029]将所述
n
个主题信息按照所述目标聚类结果输出;
[0030]获得针对任一类主题信息的溯源指令,获取所述任一类主题信息关联的各个文本;
[0031]输出所述任一类主题信息关联的文本

[0032]一种文本处理装置,所述装置包括:
[0033]获取模块,用于获得
n
个文本中各个文本的主题信息;
[0034]聚类处理模块,用于对应获得的所述
n
个主题信息的
n
个可能的分类数中的任一大于1且小于
n
的分类数
k
,对所述
n
个主题信息进行1次或多次聚类处理,得到所述分类数
k
对应的1个或多个聚类结果;其中,所述多次聚类处理采用了至少两种相似度度量方法和
/
或采用了从所述
n
个主题信息中选择
k
个主题信息作为
k
个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种文本处理方法,其特征在于,包括:获得
n
个文本中各个文本的主题信息;对应获得的所述
n
个主题信息的
n
个可能的分类数中的任一大于1且小于
n
的分类数
k
,对所述
n
个主题信息进行1次或多次聚类处理,得到所述分类数
k
对应的1个或多个聚类结果;其中,所述多次聚类处理采用了至少两种相似度度量方法和
/
或采用了从所述
n
个主题信息中选择
k
个主题信息作为
k
个初始聚类中心的多个可能结果,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度和
/
或不同次聚类作为
k
个初始聚类中心的主题信息不同;基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果
。2.
根据权利要求1所述的方法,其特征在于,对所述
n
个主题信息进行多次聚类处理,包括:获得从所述
n
个主题信息中取出
k
个不同的主题信息作为一个组合的多个组合;对于任一组合中的
k
个主题信息,以该任一组合中的
k
个主题信息作为
k
个初始聚类中心,对所述
n
个主题信息进行一次聚类处理,得到该任一组合对应的一个聚类结果;或者,对于任一组合中的
k
个主题信息,以该任一组合中的
k
个主题信息作为
k
个初始聚类中心,对所述
n
个主题信息进行
m
次聚类处理,得到该任一组合对应的
m
个聚类结果;其中,
m
为大于1的整数,所述
m
次聚类处理中,不同次聚类的初始聚类中心相同,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度
。3.
根据权利要求1所述的方法,其特征在于,所述对所述
n
个主题信息进行1次或多次聚类处理,包括:在所述
n
个主题信息中取出
k
个不同的主题信息作为目标初始聚类中心;基于所述目标初始聚类中心对所述
n
个主题信息进行一次聚类处理,得到一个聚类结果;或者,基于所述目标初始聚类中心对所述
n
个主题信息进行
m
次聚类处理,得到
m
个聚类结果;其中,
m
为大于1的整数,所述
m
次聚类处理中,不同次聚类的初始聚类中心为所述目标初始聚类中心,不同次聚类使用不同的相似度度量方法衡量主题信息间的相似度
。4.
根据权利要求1‑3任一项所述的方法,其特征在于,所述基于得到的
n
个分类数对应的所有聚类结果确定所述
n
个主题信息的目标聚类结果,包括:获得所述所有聚类结果中各个聚类结果...

【专利技术属性】
技术研发人员:张轶鑫王宝鑫伍大勇王士进
申请(专利权)人:科大讯飞股份有限公司科大讯飞北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1