文本聚类方法、电子装置及存储介质制造方法及图纸

技术编号：22330185 阅读：42 留言：0更新日期：2019-10-19 12:17

本发明专利技术揭露了一种文本聚类方法，该方法包括：接收用户发出的文本聚类指令；利用所述待聚类语料对预先确定的初始语言模型进行预训练，得到目标语言模型；将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取，根据模型输出结果得到所述待聚类语料中每个文本的句向量，生成待聚类句向量集合；及，利用预设聚类算法，基于所述待聚类句向量集合对所述待聚类语料进行聚类，得到各类别对应的句向量，并确定所述待聚类语料的聚类结果。本发明专利技术还揭露了一种电子装置及计算机存储介质。利用本发明专利技术，可提高文本聚类的准确性及效率。

Text clustering method, electronic device and storage medium

全部详细技术资料下载

【技术实现步骤摘要】
文本聚类方法、电子装置及存储介质
本专利技术涉及互联网
，尤其涉及一种文本聚类方法、电子装置及计算机可读存储介质。
技术介绍
随着人工智能在生活应用中的普及，自然语言处理的发展也日趋重要，由于大多语料都没有标签以及标注的高成本，对文本进行无监督聚类就显得尤为重要。然而，对于专业领域语料范畴内的文本，现有技术对这类文本的聚类效果并不好。以保险常见问题为例，用户咨询保险问题属于保险类专有领域语料范畴，存在数据规模小、表达方式多样性、专业难解释性、噪音数据多(例如，广告)等特性，对于该类文本，现有的聚类方案存在以下缺陷：1)在目前主流的生成句向量的方法中，利用已有的词向量求和平均会忽略掉文本的上下文信息，而诸如sent2vec、doc2vec模型需要大规模、高质量的训练语料，用户保险咨询类语料并不满足条件；2)对于聚类算法，由于保险问题的复杂性和多样性，难以定义其类别数量，无法准确选取参数；鉴于以上缺陷，大幅度降低了文本聚类的效率及准确性。因此，如何快速、准确地对文本进行聚类成为一个亟待解决的技术问题。
技术实现思路
鉴于以上内容，本专利技术提供一种文本聚类方法、电子装置及计算机可读存储介质，其主要目的在于提高文本聚类的准确性及效率。为实现上述目的，本专利技术提供一种文本聚类方法，该方法包括：步骤S1，接收用户发出的文本聚类指令，所述指令中包括待聚类语料；步骤S2，利用所述待聚类语料对预先确定的初始语言模型进行预训练，得到目标语言模型；步骤S3，将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取，根据模型输出结果得到所述待聚类语料中每个文本的句向...

【技术保护点】
1.一种文本聚类方法，应用于电子装置，其特征在于，该方法包括：步骤S1，接收用户发出的文本聚类指令，所述指令中包括待聚类语料；步骤S2，利用所述待聚类语料对预先确定的初始语言模型进行预训练，得到目标语言模型；步骤S3，将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取，根据模型输出结果得到所述待聚类语料中每个文本的句向量，生成待聚类句向量集合；及步骤S4，利用预设聚类算法，基于所述待聚类句向量集合对所述待聚类语料进行聚类，得到各类别对应的句向量，并确定所述待聚类语料的聚类结果。

【技术特征摘要】
1.一种文本聚类方法，应用于电子装置，其特征在于，该方法包括：步骤S1，接收用户发出的文本聚类指令，所述指令中包括待聚类语料；步骤S2，利用所述待聚类语料对预先确定的初始语言模型进行预训练，得到目标语言模型；步骤S3，将所述待聚类语料中每个文本依次输入所述目标语言模型中进行特征提取，根据模型输出结果得到所述待聚类语料中每个文本的句向量，生成待聚类句向量集合；及步骤S4，利用预设聚类算法，基于所述待聚类句向量集合对所述待聚类语料进行聚类，得到各类别对应的句向量，并确定所述待聚类语料的聚类结果。2.根据权利要求1所述的文本聚类方法，其特征在于，所述预先确定的初始语言模型为BERT(BidirectionalEncoderRepresentationsfromTransformers)模型，所述BERT模型中的NextSentencePrediction神经网络中池化层的维度为256。3.根据权利要求1所述的文本聚类方法，其特征在于，所述根据模型输出结果得到所述待聚类语料中每个文本的句向量，包括：取模型输出结果中每个文本的CLS和该文本中每个字的特征表示，计算平均值，将得到的定长向量作为该文本的句向量；或者取模型输出结果中每个文本的CLS和该文本中每个字的特征表示，进行加权求和并计算平均值，将得到的定长向量作为该文本的句向量。4.根据权利要求3所述的文本聚类方法，其特征在于，所述步骤S3还包括：降维步骤：利用预设降维方法对所述待聚类句向量集合中的每个句向量进行降维，将降维后的句向量作为所述待聚类语料中各文本对应的句向量。5.根据权利要求1至4中任意一项所述的文本聚类方法，其特征在于，所述聚类算法包括：基于密度的聚类算法，所述步骤S4包括：获取所述待聚类语料对应的待聚类句向量集合作为第一样本集、预设的第一邻域参数组合及样本距离度量方式，基于第一邻域参数组合得到第一聚类结果；从所述第一样本集中筛除所述第一聚类结果中的所有样本，将余下的样本作为第二样本集，基于预设的调整规则对所述第一邻域参数组合进行调整，得到第二邻域参数组合，基于所述第二邻域参数组合对所述第二样本集中的样本进行聚类得到第二聚类结果；从所述第二样本集中筛除所述第二聚类结果中的所有样本，将余下的样本作为第三样本...

【专利技术属性】
技术研发人员：张蓓，刘屹，徐君妍，刘濂，邵嘉琦，徐楠，沈志勇，万正勇，
申请(专利权)人：招商局金融科技有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人