一种语义聚类方法技术

技术编号:32859038 阅读:55 留言:0更新日期:2022-03-30 19:35
本发明专利技术属于数据挖掘技术领域,尤其是一种语义聚类方法,现提出以下方案,具体包括以下步骤:S1:数据预处理;S2:深度网络表征统计表征;S3:进行分词表征;S4:相似度计算;S5:转换成邻接矩阵;S6:构建图;S7:计算连通域;S8:聚类结果,所述S1的步骤中,对话数据中存在很多对语义有干扰或者无用的信息,比如Emoji表情、特俗符号、网址、对话引用等等这类噪声,通过正则表达式对这些噪声进行清洗,并过滤掉清洗后对话数据长度较短,没有充足语义的对话。本发明专利技术基于深度学习以及TFIDF的统计方法的结合表征,将结合表征的相似度转换为图邻接矩阵构建图,并通过对图的连通域计算达到聚类目的。并通过对图的连通域计算达到聚类目的。并通过对图的连通域计算达到聚类目的。

【技术实现步骤摘要】
一种语义聚类方法


[0001]本专利技术涉及数据挖掘
,尤其涉及一种语义聚类方法。

技术介绍

[0002]聚类是机器学习、数据挖掘中一种常用的分析方法,传统的聚类思想是对数据进行特征抽取,用这些特征来表征相应的数据,再根据度量标准量化特征之间的相似性、相关性,并且把相同相似的特征归为一类,从而达到数据聚类的目的。常用的度量标准有欧式距离、余弦相似度等。语义聚类常用的特征有TFIDF、TopicModel以及基于深度学习的文本表征,再结合聚类算法达到目的。常用的聚类算法有KMeans、层次聚类、谱聚类等,但这些方法都存在如下一些不足:
[0003](1)一些聚类方法,如KMeans,需要提前设定聚类类别个数,如果没有任何先验的情况下,确定一个合适的聚类个数是比较难的。尽管有一些理论指导一些确定聚类个数,但在需要比较精确聚类的情况下,依然显得乏力,并且比较消耗运算资源。
[0004](2)另外一些聚类方法,虽然不需要预先确定聚类类别个数,但需要大量的运算以及一些超参数设置,且聚类结果时常也不如人意,例如层次聚类。
[0005](3)除此之外,还有一些聚类方法,概念对于非专业人员晦涩难懂,当需要进行交互聚类时,难以解释交互参数的含义,如谱聚类。

技术实现思路

[0006]基于
技术介绍
中提出的一些聚类方法需要提前设定聚类类别个数,如果没有任何先验的情况下,确定一个合适的聚类个数是比较难的,尽管有一些理论指导一些确定聚类个数,但在需要比较精确聚类的情况下,依然显得乏力,并且比较消耗运算资源的技术问题,本专利技术提出了一种语义聚类方法。
[0007]本专利技术提出的一种语义聚类方法,具体包括以下步骤:
[0008]S1:数据预处理;
[0009]S2:深度网络表征统计表征;
[0010]S3:进行分词表征;
[0011]S4:相似度计算;
[0012]S5:转换成邻接矩阵;
[0013]S6:构建图;
[0014]S7:计算连通域;
[0015]S8:聚类结果。
[0016]优选地,所述S1的步骤中,对话数据中存在很多对语义有干扰或者无用的信息,比如Emoji表情、特俗符号、网址、对话引用等等这类噪声,通过正则表达式对这些噪声进行清洗,并过滤掉清洗后对话数据长度较短,没有充足语义的对话。
[0017]优选地,所述S2的步骤中,将过滤清洗后的对话数据,通过语义表征模型SynBERT,
获取到每条对话数据的语义表征a,该结果为每条对话被表征成一个312维的浮点数向量,语义表征模型SynBERT基于BERT,并对BERT进行裁剪,从原始的12层缩减到4层,向量维度从768缩减到312,并在对话数据上进行再训练,同时,针对NLI任务进行微调,以此可获得较为可靠的语义表征。
[0018]优选地,所述S3的步骤中,虽然SynBERT对文本的表征是可靠的,但考虑到对话语义的多样性,称谓的多样性可能会让表征变得敏感,于是在SynBERT的表征外,我们利用jieba对对话数据进行分词,并利用word2vec对词进行嵌入,通过计算每条数据词的TFIDF作为该词在本条数据的权重,利用每条数据词的TFIDF以及词嵌入的加权和作为本条数据的表征b,由于表征b的维度较大且稀疏,我们对表征b进行tsne降维,每条最终的表征b为300维的向量;
[0019]将结合表征的相似度转换为图邻接矩阵构建图,并通过对图的连通域计算达到聚类目的,该聚类方法不需要提前确定类别个数,无晦涩难懂的概念,在计算过程中,无需设置过多的超参数,完全根据对相似度的要求进行自动聚类。
[0020]优选地,所述S4的步骤中,所有聚类数据最终的表征A为N
×
312的矩阵,表征B为N
×
300的矩阵,先对两者进行L2标准化,再分别计算两种表征下数据之间的相似度,选用的是cos相似度作为度量标准,问题转换为SimA=A
×
A.T以及SimB=B
×
B.T,SimA和SimB均为N
×
N的矩阵,其中SimA
ij
和SimB
ij
表示数据i和数据j的相似度,且0≤SimA
ij
≤1,0≤SimB
ij
≤1,值越大表示两数据之间相似度高。最终数据之间的相似度Sim=α
×
SimA+β
×
SimB;st.α+β=1,经过实验,在我们的数据上α=0.6,β=0.4效果最好。
[0021]优选地,所述S5的步骤中,经过所述S4的步骤后获取到Sim为N
×
N的矩阵,且0≤Sim
ij
≤1。
[0022]优选地,所述S6、S7和S8的步骤中,为了进行相似的聚类,我们通过相似度阈值threshold控制粒度,将Sim矩阵中大于该值的元素置为1,小于该值的元素置为0,当需要类的纯度较高时,可将threshold调高,当对类的纯度要求不那么高时,可将threshold放小,以此0

1矩阵为邻接矩阵建图G,对图G计算所有连通域,每个连通域作为最终的聚类的每个簇。
[0023]本专利技术中的有益效果为:
[0024]1、该一种语义聚类方法,本专利技术基于深度学习以及TFIDF的统计方法的结合表征,将结合表征的相似度转换为图邻接矩阵构建图,并通过对图的连通域计算达到聚类目的,该聚类方法不需要提前确定类别个数,无晦涩难懂的概念,在计算过程中,无需设置过多的超参数,完全根据对相似度的要求进行自动聚类。
[0025]2、该一种语义聚类方法,当需要进行交互式时,概念通俗易懂,且只需要暴露控制相似度的参数,在落地上客户的理解成本小,数据的计算上可完全并行,通过并行计算可快速响应,落地上无瓶颈。
[0026]3、该一种语义聚类方法,方法由于可控制聚类结果的纯度,可对下游任务提供高质量建模数据,并且,也正因为可控制纯度,可用作数据标注,减小数据标注的成本。
[0027]该装置中未涉及部分均与现有技术相同或可采用现有技术加以实现。
附图说明
[0028]图1为本专利技术提出的一种语义聚类方法的结构示意图。
具体实施方式
[0029]下面结合具体实施方式对本专利的技术方案作进一步详细地说明。
[0030]下面详细描述本专利的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本专利,而不能理解为对本专利的限制。
[0031]参照图1,一种语义聚类方法,具体包括以下步骤:
[0032]S1:数据预处理;
[0033]S2:深度网络表征统计表征;
[0034]S3:进行分词表征;
[0035]S4:相似度计算;
[0036]S5:转换成本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义聚类方法,其特征在于,具体包括以下步骤:S1:数据预处理;S2:深度网络表征统计表征;S3:进行分词表征;S4:相似度计算;S5:转换成邻接矩阵;S6:构建图;S7:计算连通域;S8:聚类结果。2.根据权利要求1所述的一种语义聚类方法,其特征在于,所述S1的步骤中,对话数据中存在很多对语义有干扰或者无用的信息,通过正则表达式对这些噪声进行清洗,并过滤掉清洗后对话数据长度较短,没有充足语义的对话。3.根据权利要求2所述的一种语义聚类方法,其特征在于,所述S2的步骤中,将过滤清洗后的对话数据,通过语义表征模型SynBERT,获取到每条对话数据的语义表征a,该结果为每条对话被表征成一个312维的浮点数向量,语义表征模型SynBERT基于BERT,并对BERT进行裁剪,并在对话数据上进行再训练,同时,针对NLI任务进行微调,以此可获得语义表征。4.根据权利要求3所述的一种语义聚类方法,其特征在于,所述S3的步骤中,在SynBERT的表征外,利用jieba对对话数据进行分词,并利用word2vec对词进行嵌入,通过计算每条数据词的TFIDF作为在本条数据的权重,利用每条数据词的TFIDF以及词嵌入的加权和作为本条数据的表征b,由于表征b的维度较大且稀疏,对表征b进行tsne降维,每条最终的表征b为300维的向量。5.根据权利要求4所述的一种语义聚类方法,其特征在于,所述S4的步骤中,所有聚类数据最终的表征A为N<...

【专利技术属性】
技术研发人员:赵继帆吉庆琳
申请(专利权)人:北京尘锋信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1