一种基于Kmeans与LDA结合的标签挖掘方法及系统技术方案

技术编号:36528380 阅读:10 留言:0更新日期:2023-02-01 16:09
本发明专利技术公开了一种基于Kmeans与LDA结合的标签挖掘方法及系统,包括以下步骤:S1、获取待标注文本数据;S2、对所述待标注文本数据进行除杂处理得到目标文本,并计算目标文本中的句子向量;S3、将目标文本输入LDA主题模型得到主题标签T;S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C;S5、选取最大的类簇标记C与主题标签T合并,将合并结果作为待标注文本数据的主题标签进行输出。本方法与传统无监督主题挖掘技术相比,引入TFIDF与word2vec结合求平均作为句子向量,结合了LDA与Kmeans两种非监督算法相互约束得到标注数据,减少了单一模型带来的误差,实现了从两个维度主题维度和相似度维度确定标签值。和相似度维度确定标签值。和相似度维度确定标签值。

【技术实现步骤摘要】
一种基于Kmeans与LDA结合的标签挖掘方法及系统


[0001]本专利技术涉及无监督主题挖掘
,更具体地,涉及一种基于Kmeans与LDA结合的标签挖掘方法及系统。

技术介绍

[0002]现有的标签挖掘方法需要首先定义标签口径,通过人工标注形式获取标注数据,然后需要先通过特征提取,再通过聚类算法聚类,根据类簇数进行人工合并标签,归纳总结获取标签定义并确定标注数据。现有技术存在如下问题:会出现人工主观臆断,造成标注数据质量问题以及人力成本增加;单纯的使用聚类算法,没有约束条件,人工参与度大,标签主题不明确,会出现误差传播问题,导致标注质量下降,进而导致下游任务表现降低。
[0003]为此,结合以上需求和现有技术缺陷,本申请提出了一种基于Kmeans与LDA结合的标签挖掘方法及系统。

技术实现思路

[0004]本专利技术提供了一种基于Kmeans与LDA结合的标签挖掘方法及系统,能够减少单一模型带来的误差,从两个维度主题维度和相似度维度确定待检测文本数据的标签值。
[0005]本专利技术的首要目的是为解决上述技术问题,本专利技术的技术方案如下:
[0006]本专利技术第一方面提供了一种基于Kmeans与LDA结合的标签挖掘方法,本方法包括以下步骤:
[0007]S1、获取待标注文本数据。
[0008]S2、对所述待标注文本数据进行除杂处理得到目标文本,并计算目标文本中的句子向量。
[0009]S3、将目标文本输入LDA主题模型得到主题标签T。
>[0010]S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C。
[0011]S5、选取最大的类簇标记C与主题标签T合并,将合并结果作为待标注文本数据的主题标签进行输出;主题标签与类簇标记不一致的待定数据重复执行步骤S2。
[0012]进一步的,所述对待标注文本数据进行除杂处理具体为:对待标注文本数据进行清洗得到对应的清洗后的数据,并计算每个词的TFIDF值;所述清洗过程包括有去除无用词、去除重复样本、去除样本中的连续重复词;所述样本即是待标注文本数据。
[0013]进一步的,所述对待标注文本数据进行清洗的结果具体为:句子S即待标注文本数据经清洗后得到分词结果W(w1,w2,w3,...,w
m
),以及使用word2vec训练词的向量V(v1,v2,v3,...,v
n
)。
[0014]其中,W表示当前句子的分词集合,w
m
表示对应词m的TFIDF值,V表示向量集合,总共包括n个维度向量。
[0015]进一步的,步骤S2所述计算目标文本中的句子向量,其数学表达形式为:
[0016][0017]其中,S
e
为句子向量表示,通过对得到的所述TFIDF值和词的向量进行词向量加权得到句子向量表示;w
i
表示当前词i的TFIDF权重;v
n
表示n个维度向量。
[0018]其中,引入TFIDF与word2vec结合求平均作为句子向量,能够既考虑到词级别的ngram模型,也能考虑到词语与词语之间的语义模型综合得到句子向量。
[0019]进一步的,所述步骤S3,具体为:通过LDA算法对目标文本数据进行主题挖掘,并根据困惑度曲线以及相关性得到最佳的主题数目,通过关键词得到对应的主题,所述主题即标签,并对所有样本进行标记,记作T。
[0020]进一步的,所述步骤S4,具体为:对所述句子向量表示S
e
使用Kmeans聚类算法,并根据肘拐点确定最佳K值,对所有样本数据进行类簇标记,记作C;所述最佳K值即当前数据的最佳类簇数,所述样本数据即待标注文本数据。
[0021]进一步的,所述K值的最优解是以成本函数最小化为目标,成本函数为各个类畸变程度之和,每个类的畸变程度等于该类重心与其内部成员位置距离的平方和,但是平均畸变程度会随着K的增大先减小后增大,因此可以求出最小的平均畸变程度。
[0022]其中,确定所述K值的目的是为了确定当前数据需要划分为几类,然后再结合LDA进行双向确定样本标签。
[0023]进一步的,所述对所有样本数据进行类簇标记的过程具体为:样本即待标注的文本数据经过映射为一一对应的样本向量,样本向量经过聚类后可以得到每个向量的类簇ID,进而得到向量对应的样本,最后得到样本对应的类簇标签,通过不断更新迭代簇中心,根据类内的畸变程度,即根据肘拐法确定最佳K值,然后就可以确定当前数据的类簇数就是K个。
[0024]进一步的,所述选取最大的类簇标记C与主题标签T合并,其过程具体为:将T与C结果合并,对于同一主题下的样本数据X,主题为T
i
依次遍历X中含有的类簇个数,选择同类簇数较大的作为标注数据,标签记为T
i
,其他依次类推,直到数据迭代完全或者达到最大迭代次数为止。
[0025]其中,对于不参与计算的所有数据均需要进行二次迭代计算,比如原有数据有M条数据,经过第一轮后,挖掘N条数据标注后,剩下的M

N条继续进行主题与聚类挖掘,由于在第一次已经得到表示向量,在极性第二次计算时无需再次计算,只需进行主题计算与聚类计算即可,得到对应的主题标签T和类簇标记C。
[0026]本专利技术第二方面提供了一种基于Kmeans与LDA结合的标签挖掘系统,包括存储器、处理器,所述存储器中包括基于Kmeans与LDA结合的标签挖掘程序,所述基于Kmeans与LDA结合的标签挖掘程序被所述处理器执行时实现如下步骤:
[0027]S1、获取待标注文本数据。
[0028]S2、对所述待标注文本数据进行除杂处理得到目标文本,并计算目标文本中的句子向量。
[0029]S3、将目标文本输入LDA主题模型得到主题标签T。
[0030]S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C。
[0031]S5、选取最大的类簇标记C与主题标签T合并,将合并结果作为待标注文本数据的
主题标签进行输出;主题标签与类簇标记不一致的待定数据重复执行步骤S2。
[0032]与现有技术相比,本专利技术技术方案的有益效果是:
[0033]本专利技术提供了一种基于Kmeans与LDA结合的标签挖掘方法及装置,借助LDA与Kmeans两种非监督算法相互约束得到标注数据,减少了单一模型带来的误差,实现了从两个维度主题维度和相似度维度确定标签值。
附图说明
[0034]图1为本专利技术一种基于Kmeans与LDA结合的标签挖掘方法的流程图。
[0035]图2为本专利技术一种实施例的流程图。
[0036]图3为本专利技术一种基于Kmeans与LDA结合的标签挖掘系统的示意图。
具体实施方式
[0037]为了能够更清楚地理解本专利技术的上述目的、特征和优点,下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是,在不冲本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Kmeans与LDA结合的标签挖掘方法,其特征在于,包括以下步骤:S1、获取待标注文本数据;S2、对所述待标注文本数据进行除杂处理得到目标文本,并计算目标文本中的句子向量;S3、将目标文本输入LDA主题模型得到主题标签T;S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C;S5、选取最大的类簇标记C与主题标签T合并,将合并结果作为待标注文本数据的主题标签进行输出;主题标签与类簇标记不一致的待定数据重复执行步骤S2。2.根据权利要求1所述的一种基于Kmeans与LDA结合的标签挖掘方法,其特征在于,所述对待标注文本数据进行除杂处理具体为:对待标注文本数据进行清洗得到对应的清洗后的数据,并计算每个词的TFIDF值;所述清洗过程包括有去除无用词、去除重复样本、去除样本中的连续重复词;所述样本即是待标注文本数据。3.根据权利要求2所述的一种基于Kmeans与LDA结合的标签挖掘方法,其特征在于,所述对待标注文本数据进行清洗的结果具体为:句子S即待标注文本数据经清洗后得到分词结果W(w1,w2,w3,...,w
m
),以及使用word2vec训练词的向量V(v1,v2,v3,...,v
n
);其中,W表示当前句子的分词集合,w
m
表示对应词m的TFIDF值,V表示向量集合,总共包括n个维度向量。4.根据权利要求3所述的一种基于Kmeans与LDA结合的标签挖掘方法,其特征在于,步骤S2所述计算目标文本中的句子向量,其数学表达形式为:其中,S
e
为句子向量表示,通过对得到的所述TFIDF值和词的向量进行词向量加权得到句子向量表示;w
i
表示当前词i的TFIDF权重;v
n
表示n个维度向量。5.根据权利要求1所述的一种基于Kmeans与LDA结合的标签挖掘方法,其特征在于,所述步骤S3,具体为:通过LDA算法对目标文本数据进行主题挖掘,并根据困惑度曲线以及相关性得到最佳的主题数目,通过关键词得到对应的主题,所述主题即标签,并对所有样本进行标记,记作T。6.根据权利要求4所述的一种基于Kme...

【专利技术属性】
技术研发人员:谭伟王允黎明朱苑萍李韦
申请(专利权)人:深圳市龙光云众智慧科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1