【技术实现步骤摘要】
一种文本聚类方法、文本聚类装置及终端设备
本申请涉及深度学习
,尤其涉及一种文本聚类方法、文本聚类装置及终端设备。
技术介绍
文本聚类是在传统的聚类分析的基础上发展而来的,其依据是同类的文档相似度较大,不同类的文档相似度较小。作为一种无监督的机器学习方法,聚类不需要训练过程,也不需要预先对文档手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行分类和识别的重要手段,为越来越多的研究人员所关注。但是现有的文本聚类方法仍然得不到较高的准确率。
技术实现思路
有鉴于此,本申请实施例提供了一种文本聚类方法、文本聚类装置及终端设备,以解决现有的文本聚类方法的结果准确性较低的问题。本申请实施例的第一方面提供了一种文本聚类方法,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向 ...
【技术保护点】
1.一种文本聚类方法,其特征在于,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;对所述文本向量进行聚类得到聚类结果。
【技术特征摘要】
1.一种文本聚类方法,其特征在于,包括:获取训练文本,并对所述训练文本进行分词预处理得到多个待训练词语;利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型;获取待聚类文本,对所述待聚类文本进行分词预处理得到多个文本特征词;利用所述训练后的转换模型分别将所述文本特征词转换为词向量,并将所述待聚类文本中的所有词向量进行叠加得到所述待聚类文本的文本向量;对所述文本向量进行聚类得到聚类结果。2.如权利要求1所述的文本聚类方法,其特征在于,所述对所述训练文本进行分词预处理得到多个训练词语,包括:去除所述训练文本中的标点符号得到第一预处理文本;去除所述第一预处理文本中的停用词得到第二预处理文本;对所述第二预处理文本进行分词处理得到多个文本特征词。3.如权利要求1所述的文本聚类方法,其特征在于,所述利用所述待训练词语对预设的转换模型进行训练,得到训练后的转换模型,包括:分别统计每个待训练词语在所述训练文本中出现的词频,并根据所述词频构建哈夫曼树;获取初始信息,并根据所述初始信息和构建的哈夫曼树,对所述待训练词语进行训练,得到训练后的转换模型;其中,所述初始信息包括预设窗口、初始参数向量和初始词向量。4.如权利要求3所述的文本聚类方法,其特征在于,所述根据所述初始信息和构建的哈夫曼树,对所述待训练词语进行训练,得到训练后的转换模型,包括:按照所述初始信息中的预设窗口获取所述待训练词语的上下文,并计算所述待训练词语的上下文中包含的所有待训练词语的词向量之和,得到和向量;在所述哈夫曼树中确定从根节点到所述待训练词语的路径;利用贝叶斯公式,并基于所述和向量计算所述路径对应的概率;对所述概率取对数计算得到目标函数,将所述目标函数作为训练后的转换模型。5.如权利要求4所述的文本聚类方法,其特征在于,在对所述概率取对数计算得到目标函数之后,还包括:将所述目标函数对所述初始信息中的初始参数向量求导得到第一增量,并利用θ’=θ0+αη1对所述初始参数向量进行更新;将所述目标函数对所述和向...
【专利技术属性】
技术研发人员:刘志勇,任晓德,吴又奎,
申请(专利权)人:中科恒运股份有限公司,
类型:发明
国别省市:河北,13
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。