文本聚类方法以及相关装置制造方法及图纸

技术编号:33082240 阅读:30 留言:0更新日期:2022-04-15 10:38
本申请提供了一种文本聚类方法以及相关装置,该文本聚类方法包括:获得多个文档;响应于多个文档中存在字符长度超过阈值的待处理文档,对待处理文档进行降维处理以使得待处理文档的字符长度小于或等于阈值;对字符长度小于或等于阈值的所有文档进行聚类以获得至少一个聚类簇;针对每个聚类簇生成对应的摘要。通过这种设计方式,对PGNet模型进行了改进,使其能够同时处理多篇文档,得到多篇章文档的共同摘要,基于PGNet模型的多篇章的文本短描述生成方法,解决了传统方案中只能实现单个文档的摘要生成的缺陷。的摘要生成的缺陷。的摘要生成的缺陷。

【技术实现步骤摘要】
文本聚类方法以及相关装置


[0001]本申请属于自然语言处理应用
,具体涉及文本聚类方法以及相关装置。

技术介绍

[0002]随着信息化进程的不断推荐,日益增长的文本信息给人们带来巨大的困扰,而信息处理技术可以有效帮助人们从海量数据中挖掘出有效的信息。文本类别划分是信息处理技术最基本的方法,其中,文本类别划分目前主要包括有监督的文本分类方法和无监督或者半监督的文本聚类方法。有监督的文本分类方法通过预定义好类别标签,通过对文本数据组织人工标注构建专有的或者面向领域的文本。预定义类别标签一旦确定很难更改,因此,基于有监督的文本分类方法极大的限制了文本类别划分的拓展。基于半监督或者无监督的文本聚类方法,可以解决文本类别划分的问题,在文本类别划分方面得到了广泛的应用。文本聚类功能通过对大量的输入文本进行聚类分析将具有高度相似性的文档划分到相同的类别。同类的文档相似度较大,而类别不同的文档相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,且不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力。例如:传统的基于si本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:获得多个文档;响应于多个所述文档中存在字符长度超过阈值的待处理文档,对所述待处理文档进行降维处理以使得所述待处理文档的字符长度小于或等于所述阈值;对字符长度小于或等于所述阈值的所有所述文档进行聚类以获得至少一个聚类簇;针对每个所述聚类簇生成对应的摘要。2.根据权利要求1所述的文本聚类方法,其特征在于,所述待处理文档包括正文和标题,所述对所述待处理文档进行降维处理以使得所述待处理文档的字符长度小于或等于所述阈值的步骤,包括:对所述待处理文档的正文进行切分,以获得多个语句;获得所述正文中每个语句的语句特征向量、以及获得所述标题的标题特征向量;获得所述标题特征向量和每个所述语句特征向量之间的相似度值;将相似度值较高的多个所述语句拼接以形成降维后的所述待处理文档。3.根据权利要求2所述的文本聚类方法,其特征在于,所述语句特征向量和所述标题特征向量基于训练后的tpBERT模型获得;其中,训练所述tpBERT模型的步骤包括:构建多个训练文本对,每个所述训练文本对中包括第一训练文本和第二训练文本,且每个所述训练文本对标注有相似度标签,所述相似度标签为0或1;对所述第一训练文本和所述第二训练文本分别进行特征提取以获得对应的第一输出向量和第二输出向量;对所述第一输出向量和所述第二输出向量进行拼接以获得第一拼接向量;利用第一激活函数和所述第一拼接向量获得相似度预测值;基于所述相似度预测值和对应的所述相似度标签更新所述tpBERT模型中的参数。4.根据权利要求3所述的文本聚类方法,其特征在于,所述对所述第一输出向量和所述第二输出向量进行拼接以获得第一拼接向量的步骤,包括:将所述第一输出向量和所述第二输出向量做差以获得第一差异向量、以及将所述第二输出向量和所述第一输出向量做差以获得第二差异向量;将所述第一输出向量、所述第二输出向量、所述第一差异向量和所述第二差异向量作异或处理以获得所述第一拼接向量。5.根据权利要求1所述的文本聚类方法,其特征在于,所述对字符长度小于或等于所述阈值的所有所述文档进行聚类以获得至少一个聚类簇的步骤,包括:利用DBSCAN聚类算法对所有所述文档进行聚类以获得至少一个聚类簇。6.根据权利要求1所述的文本聚类方法,其特征在于,所述针对每个所述聚类簇生成对应的摘要的步骤,包括:针对当前所述聚类簇中的每个文档中的每个语句,获得当前所述语句中每个单词的位置向量,并基于所述语句中的所有单词的位置向量以及所述语句的语句特征向量获得语义特征向量;对当前所述聚类簇中每个所述文档的所有所述语义特征向量进行编码以获得中间层的隐藏状态向量;对当前所述聚类簇中所有文档的所述隐藏状态向量进行解码以获得所述摘要。
7.根据权利要求1所述的文本聚类方法,其特征在于,所述摘要...

【专利技术属性】
技术研发人员:洪帅张浩宇吴飞方四安柳林徐承
申请(专利权)人:合肥讯飞数码科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1