一种语义聚类方法技术

技术编号：32859038 阅读：55 留言：0更新日期：2022-03-30 19:35

本发明专利技术属于数据挖掘技术领域，尤其是一种语义聚类方法，现提出以下方案，具体包括以下步骤：S1：数据预处理；S2：深度网络表征统计表征；S3：进行分词表征；S4：相似度计算；S5：转换成邻接矩阵；S6：构建图；S7：计算连通域；S8：聚类结果，所述S1的步骤中，对话数据中存在很多对语义有干扰或者无用的信息，比如Emoji表情、特俗符号、网址、对话引用等等这类噪声，通过正则表达式对这些噪声进行清洗，并过滤掉清洗后对话数据长度较短，没有充足语义的对话。本发明专利技术基于深度学习以及TFIDF的统计方法的结合表征，将结合表征的相似度转换为图邻接矩阵构建图，并通过对图的连通域计算达到聚类目的。并通过对图的连通域计算达到聚类目的。并通过对图的连通域计算达到聚类目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种语义聚类方法

[0001]本专利技术涉及数据挖掘
，尤其涉及一种语义聚类方法。

技术介绍

[0002]聚类是机器学习、数据挖掘中一种常用的分析方法，传统的聚类思想是对数据进行特征抽取，用这些特征来表征相应的数据，再根据度量标准量化特征之间的相似性、相关性，并且把相同相似的特征归为一类，从而达到数据聚类的目的。常用的度量标准有欧式距离、余弦相似度等。语义聚类常用的特征有TFIDF、TopicModel以及基于深度学习的文本表征，再结合聚类算法达到目的。常用的聚类算法有KMeans、层次聚类、谱聚类等，但这些方法都存在如下一些不足：
[0003](1)一些聚类方法，如KMeans，需要提前设定聚类类别个数，如果没有任何先验的情况下，确定一个合适的聚类个数是比较难的。尽管有一些理论指导一些确定聚类个数，但在需要比较精确聚类的情况下，依然显得乏力，并且比较消耗运算资源。
[0004](2)另外一些聚类方法，虽然不需要预先确定聚类类别个数，但需要大量的运算以及一些超参数设置，且聚类结果时常也不如人意，例如层次聚类。
[0005](3)除此之外，还有一些聚类方法，概念对于非专业人员晦涩难懂，当需要进行交互聚类时，难以解释交互参数的含义，如谱聚类。

技术实现思路

[0006]基于
技术介绍
中提出的一些聚类方法需要提前设定聚类类别个数，如果没有任何先验的情况下，确定一个合适的聚类个数是比较难的，尽管有一些理论指导一些确定聚类个数，但在需要比较精确聚类的情况下，依然显得乏力，并且比较消耗...

【技术保护点】

【技术特征摘要】
1.一种语义聚类方法，其特征在于，具体包括以下步骤：S1：数据预处理；S2：深度网络表征统计表征；S3：进行分词表征；S4：相似度计算；S5：转换成邻接矩阵；S6：构建图；S7：计算连通域；S8：聚类结果。2.根据权利要求1所述的一种语义聚类方法，其特征在于，所述S1的步骤中，对话数据中存在很多对语义有干扰或者无用的信息，通过正则表达式对这些噪声进行清洗，并过滤掉清洗后对话数据长度较短，没有充足语义的对话。3.根据权利要求2所述的一种语义聚类方法，其特征在于，所述S2的步骤中，将过滤清洗后的对话数据，通过语义表征模型SynBERT，获取到每条对话数据的语义表征a，该结果为每条对话被表征成一个312维的浮点数向量，语义表征模型SynBERT基于BERT，并对BERT进行裁剪，并在对话数据上进行再训练，同时，针对NLI任务进行微调，以此可获得语义表征。4.根据权利要求3所述的一种语义聚类方法，其特征在于，所述S3的步骤中，在SynBERT的表征外，利用jieba对对话数据进行分词，并利用word2vec对词进行嵌入，通过计算每条数据词的TFIDF作为在本条数据的权重，利用每条数据词的TFIDF以及词嵌入的加权和作为本条数据的表征b，由于表征b的维度较大且稀疏，对表征b进行tsne降维，每条最终的表征b为300维的向量。5.根据权利要求4所述的一种语义聚类方法，其特征在于，所述S4的步骤中，所有聚类数据最终的表征A为N<...

【专利技术属性】
技术研发人员：赵继帆，吉庆琳，
申请(专利权)人：北京尘锋信息技术有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人