文本聚类方法、电子装置及存储介质制造方法及图纸

技术编号:22330185 阅读:42 留言:0更新日期:2019-10-19 12:17
本发明专利技术揭露了一种文本聚类方法,该方法包括:接收用户发出的文本聚类指令;利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。本发明专利技术还揭露了一种电子装置及计算机存储介质。利用本发明专利技术,可提高文本聚类的准确性及效率。

Text clustering method, electronic device and storage medium

【技术实现步骤摘要】
文本聚类方法、电子装置及存储介质
本专利技术涉及互联网
,尤其涉及一种文本聚类方法、电子装置及计算机可读存储介质。
技术介绍
随着人工智能在生活应用中的普及,自然语言处理的发展也日趋重要,由于大多语料都没有标签以及标注的高成本,对文本进行无监督聚类就显得尤为重要。然而,对于专业领域语料范畴内的文本,现有技术对这类文本的聚类效果并不好。以保险常见问题为例,用户咨询保险问题属于保险类专有领域语料范畴,存在数据规模小、表达方式多样性、专业难解释性、噪音数据多(例如,广告)等特性,对于该类文本,现有的聚类方案存在以下缺陷:1)在目前主流的生成句向量的方法中,利用已有的词向量求和平均会忽略掉文本的上下文信息,而诸如sent2vec、doc2vec模型需要大规模、高质量的训练语料,用户保险咨询类语料并不满足条件;2)对于聚类算法,由于保险问题的复杂性和多样性,难以定义其类别数量,无法准确选取参数;鉴于以上缺陷,大幅度降低了文本聚类的效率及准确性。因此,如何快速、准确地对文本进行聚类成为一个亟待解决的技术问题。
技术实现思路
鉴于以上内容,本专利技术提供一种文本聚类方法、电子装置及计算机可读存储介质,其主要目的在于提高文本聚类的准确性及效率。为实现上述目的,本专利技术提供一种文本聚类方法,该方法包括:步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料;步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及步骤S4,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。此外,为实现上述目的,本专利技术还提供一种电子装置,该装置包括:存储器、处理器,所述存储器中存储有可在所述处理器上运行的文本聚类程序,所述文本聚类程序被所述处理器执行时可实现如上所述文本聚类方法中的任意步骤。此外,为实现上述目的,本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质中包括文本聚类程序,所述文本聚类程序被处理器执行时,可实现如上所述文本聚类方法中的任意步骤。本专利技术提出的文本聚类方法、电子装置及计算机可读存储介质,1)利用待聚类语料对初始语言模型进行预训练后,可以使目标语言模型更好地捕捉到待聚类语料的特有信息,为准确提取特征打下基础;2)通过在模型预训练过程中,调整模型的参数,提高模型预训练过程的效率;3)在生成句向量的过程中,通过综合考虑文本的句子标签及每个子的向量表示,更准确地生成文本的句向量,并对生成的句向量进行降维,为后续实现快速、准确地聚类奠定基础;4)在聚类过程中,并非单一地选取一组参数得到聚类结果,而是通过逐步调参得到聚类结果,不断提纯,不断迭代,得到更好的聚类效果。综上,本专利技术能有效地提高文本聚类的准确率及效率。附图说明图1为本专利技术文本聚类方法较佳实施例的流程图;图2为BERT模型中NextSentencePrediction神经网络的示意图;图3为本专利技术聚类步骤的示意图;图4为本专利技术电子装置较佳实施例的示意图;图5为图4中文本聚类程序较佳实施例的程序模块示意图。本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。具体实施方式应当理解,此处所描述的具体实施例仅仅用以解释本专利技术,并不用于限定本专利技术。本专利技术提供一种文本聚类方法。该方法可以由一个装置执行,该装置可以由软件和/或硬件实现。参照图1所示,为本专利技术文本聚类方法较佳实施例的流程图。在本专利技术文本聚类方法一实施例中,该方法仅包括:步骤S1-步骤S4。步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料。在以下描述中,以电子装置为主体,对本专利技术的各实施例进行说明。在本实施例中,电子装置接收到用户通过终端发出文本聚类指令,电子装置可根据文本聚类指令确定待聚类语料。上述待聚类语料可以举例为保险类问答语料。步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型。在本实施例中,上述初始语言模型为利用维基百科中文语料对BERT(BidirectionalEncoderRepresentationsfromTransformers)模型进行训练得到的初始模型。对初始语言模型进行预训练的目的在于使现有的语言模型更适合提取待聚类语料特征,例如,提取保险语料特征,以提高模型准确性。然而,在使用保险问答语料对已有的初始语言模型进行预训练时,由于神经网络模型中参数庞大的特性,为了使模型充分地学习到待聚类语料中的语义信息并达到拟合,训练次数steps必须设置较大,这样会导致每次预训练的时间较长。例如,我们使用46万条问答对作为预训练语料,训练次数steps设置为100000次,使用的硬件是两个TeslaP40,模型预训练的时长大概16个小时。考虑到每次有大量更新语料都要做一次预训练,为了减少预训练的时长,需对预训练的过程进行优化。在本实施例中,利用待聚类语料对所述初始神经网络预训练语言模型进行预训练。如图2所示,所述BERT模型里的一个任务NextSentencePrediction包括:1层嵌入层(embedding)、1层编码层(encoder层,包括12层transformer层)及1层池化层(pooler)。可以理解的是,本实施例中使用的神经网络语言模型里,transformer层和pooler层每个字符的表示都是768维,最后在提取特征时,使用的是encoder层中的最后一层transformer层,而pooler层是为了接下来的二分类预测作变换,因此,对pooler层的维度进行修改并不影响初始语言模型。在本实施例中,通过将pooler层的维度由768维改为256维,使得神经网络的参数减少,因而能加快模型预训练速度,达到减少模型预训练时长的目的。最终,将46万条问答的预训练时长由原来的16小时降低到12小时,实现了25%的训练时长提升。步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合。在本实施例中,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,计算平均值,将得到的定长向量作为该文本的句向量,计算公式为:其中,Vsk表示待聚类语料中某文本k的句向量,Vck表示待聚类语料中某文本k对应的句子标签CLS的特征向量,Vwik表示待聚类语料中某文本k对应的第i个字的特征向量(字向量),m表示待聚类语料中某文本k的字的个数,m为正整数。对于每一个文本,经过目标语言模型进行特征提取后,取最后一层transformer层的特征表示作为CLS和每个字的特征向量。这样做是因为考虑到句子标签CLS的特征能在一定程度上代表整个句子的语义信息,因此对其做了保留,通过该步骤,能提高句向量的语义完整性,有助于提高后续聚类结果的准确性。在其他实施例中,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:取模型输出结果中本文档来自技高网...

【技术保护点】
1.一种文本聚类方法,应用于电子装置,其特征在于,该方法包括:步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料;步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及步骤S4,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。

【技术特征摘要】
1.一种文本聚类方法,应用于电子装置,其特征在于,该方法包括:步骤S1,接收用户发出的文本聚类指令,所述指令中包括待聚类语料;步骤S2,利用所述待聚类语料对预先确定的初始语言模型进行预训练,得到目标语言模型;步骤S3,将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取,根据模型输出结果得到所述待聚类语料中每个文本的句向量,生成待聚类句向量集合;及步骤S4,利用预设聚类算法,基于所述待聚类句向量集合对所述待聚类语料进行聚类,得到各类别对应的句向量,并确定所述待聚类语料的聚类结果。2.根据权利要求1所述的文本聚类方法,其特征在于,所述预先确定的初始语言模型为BERT(BidirectionalEncoderRepresentationsfromTransformers)模型,所述BERT模型中的NextSentencePrediction神经网络中池化层的维度为256。3.根据权利要求1所述的文本聚类方法,其特征在于,所述根据模型输出结果得到所述待聚类语料中每个文本的句向量,包括:取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,计算平均值,将得到的定长向量作为该文本的句向量;或者取模型输出结果中每个文本的CLS和该文本中每个字的特征表示,进行加权求和并计算平均值,将得到的定长向量作为该文本的句向量。4.根据权利要求3所述的文本聚类方法,其特征在于,所述步骤S3还包括:降维步骤:利用预设降维方法对所述待聚类句向量集合中的每个句向量进行降维,将降维后的句向量作为所述待聚类语料中各文本对应的句向量。5.根据权利要求1至4中任意一项所述的文本聚类方法,其特征在于,所述聚类算法包括:基于密度的聚类算法,所述步骤S4包括:获取所述待聚类语料对应的待聚类句向量集合作为第一样本集、预设的第一邻域参数组合及样本距离度量方式,基于第一邻域参数组合得到第一聚类结果;从所述第一样本集中筛除所述第一聚类结果中的所有样本,将余下的样本作为第二样本集,基于预设的调整规则对所述第一邻域参数组合进行调整,得到第二邻域参数组合,基于所述第二邻域参数组合对所述第二样本集中的样本进行聚类得到第二聚类结果;从所述第二样本集中筛除所述第二聚类结果中的所有样本,将余下的样本作为第三样本...

【专利技术属性】
技术研发人员:张蓓刘屹徐君妍刘濂邵嘉琦徐楠沈志勇万正勇
申请(专利权)人:招商局金融科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1