基于长文本的聚类方法与系统技术方案

技术编号:34771806 阅读:28 留言:0更新日期:2022-08-31 19:34
本发明专利技术公开了一种基于长文本的聚类方法,包括:获取待处理的长文本数据;分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字;向量化所述多个关键词以及与多个关键字,得到每个关键词对应的目标词向量以及与每个关键字的目标字向量;对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量;对所述拼接向量进行特征选择,得到目标隐层向量;对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量;基于预设的聚类算法对所述文本向量进行聚类处理,得到所述长文本数据对应的聚类结果。本发明专利技术用以解决现有技术中聚类不准确的问题。以解决现有技术中聚类不准确的问题。以解决现有技术中聚类不准确的问题。

【技术实现步骤摘要】
基于长文本的聚类方法与系统


[0001]本专利技术实施例涉及文本数据的处理
,尤其涉及一种基于长文本的聚类方法与系统。

技术介绍

[0002]聚类是在无监督的条件下,将文本归类,提取信息的有效算法。简单理解聚类算法,就是将特征相似的数据归为一个簇,特征不同的数据分在不同簇。
[0003]将数据聚类的第一步就是将数据的相关特征转换成向量,再输入聚类模型。我们可以这样理解,如果数据能够用数字向量有效表示其特征,就可以应用聚类算法做聚类。所以聚类算法实际的应用范围非常广泛,如用户画像、生物种群标记、图像分割。
[0004]专利技术人在文本处理时发现,实际业务中,需要处理的聚类文本经常含有很多冗余无效信息,或者文本长度太长,简单处理难以把握文本表达的核心含义。按聚类常规的处理,文本长度太长,将分词出的词向量进行相加,聚类时会被很多冗余的信息干扰,往往达不到很好的聚类效果。如果只是将文本长度截短,也不能有效保证关键信息在保留的部分,导致聚类结果不准确。

技术实现思路

[0005]有鉴于此,本专利技术实施例的目的是提供本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于长文本的聚类方法,其特征在于,包括:获取待处理的长文本数据;分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字;向量化所述多个关键词以及与多个关键字,得到每个关键词对应的目标词向量以及与每个关键字的目标字向量;对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量;对所述拼接向量进行特征选择,得到目标隐层向量;对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量;基于预设的聚类算法对所述文本向量进行聚类处理,得到所述长文本数据对应的聚类结果。2.根据权利要求1所述的基于长文本的聚类方法,其特征在于,所述分别对所述长文本数据进行分词处理与分字处理,得到多个关键词以及多个关键字包括:基于预设的分词模型对所述长文本数据进行分词处理,得到多个关键词;将所述长文本数据以字为单位进行分割,得到多个关键字。3.根据权利要求2所述的基于长文本的聚类方法,其特征在于,所述对得到的多个目标词向量以及多个目标字向量进行拼接,得到拼接向量包括:将多个目标字向量按顺序进行拼接,得到拼接字向量E1;将多个目标词向量按顺序进行拼接,得到拼接词向量E2;拼接所述拼接字向量E1与所述拼接词向量E2,得到拼接向量E3。4.根据权利要求1所述的基于长文本的聚类方法,其特征在于,所述对所述拼接向量进行特征选择,得到目标隐层向量包括:在开始时刻按顺序输入所述拼接向量到预设的LSTM模型中,其中,所述LSTM模型用于对所述拼接向量的第一向量进行压缩,并将压缩后得到的第一向量传入下一时刻;下一时刻所述LSTM模型的循环神经网络接收上一时刻的压缩后的第一向量和所述拼接向量的第二向量,将二者压缩成新的向量传入下一时刻;在压缩完所述拼接向量中的所有向量后得到每一时刻的隐层向量,将每一时刻的隐层向量进行拼接,得到目标隐层向量。5.根据权利要求1所述的基于长文本的聚类方法,其特征在于,所述对所述目标隐层向量进行特征提取,得到所述长文本数据的文本向量包括:通...

【专利技术属性】
技术研发人员:邹倩霞
申请(专利权)人:深圳壹账通智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1