一种基于Kmeans与LDA结合的标签挖掘方法及系统技术方案

技术编号：36528380 阅读：10 留言：0更新日期：2023-02-01 16:09

本发明专利技术公开了一种基于Kmeans与LDA结合的标签挖掘方法及系统，包括以下步骤：S1、获取待标注文本数据；S2、对所述待标注文本数据进行除杂处理得到目标文本，并计算目标文本中的句子向量；S3、将目标文本输入LDA主题模型得到主题标签T；S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C；S5、选取最大的类簇标记C与主题标签T合并，将合并结果作为待标注文本数据的主题标签进行输出。本方法与传统无监督主题挖掘技术相比，引入TFIDF与word2vec结合求平均作为句子向量，结合了LDA与Kmeans两种非监督算法相互约束得到标注数据，减少了单一模型带来的误差，实现了从两个维度主题维度和相似度维度确定标签值。和相似度维度确定标签值。和相似度维度确定标签值。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于Kmeans与LDA结合的标签挖掘方法及系统

[0001]本专利技术涉及无监督主题挖掘
，更具体地，涉及一种基于Kmeans与LDA结合的标签挖掘方法及系统。

技术介绍

[0002]现有的标签挖掘方法需要首先定义标签口径，通过人工标注形式获取标注数据，然后需要先通过特征提取，再通过聚类算法聚类，根据类簇数进行人工合并标签，归纳总结获取标签定义并确定标注数据。现有技术存在如下问题：会出现人工主观臆断，造成标注数据质量问题以及人力成本增加；单纯的使用聚类算法，没有约束条件，人工参与度大，标签主题不明确，会出现误差传播问题，导致标注质量下降，进而导致下游任务表现降低。
[0003]为此，结合以上需求和现有技术缺陷，本申请提出了一种基于Kmeans与LDA结合的标签挖掘方法及系统。

技术实现思路

[0004]本专利技术提供了一种基于Kmeans与LDA结合的标签挖掘方法及系统，能够减少单一模型带来的误差，从两个维度主题维度和相似度维度确定待检测文本数据的标签值。
[0005]本专利技术的首要目的是为解决上述技术问题，本专利技术的技术方案如下：
[0006]本专利技术第一方面提供了一种基于Kmeans与LDA结合的标签挖掘方法，本方法包括以下步骤：
[0007]S1、获取待标注文本数据。
[0008]S2、对所述待标注文本数据进行除杂处理得到目标文本，并计算目标文本中的句子向量。
[0009]S3、将目标文本输入LDA主题模型得到主题标签T。
>[0010]S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C。
[0011]S5、选取最大的类簇标记C与主题标签T合并，将合并结果作为待标注文本数据的主题标签进行输出；主题标签与类簇标记不一致的待定数据重复执行步骤S2。
[0012]进一步的，所述对待标注文本数据进行除杂处理具体为：对待标注文本数据进行清洗得到对应的清洗后的数据，并计算每个词的TFIDF值；所述清洗过程包括有去除无用词、去除重复样本、去除样本中的连续重复词；所述样本即是待标注文本数据。
[0013]进一步的，所述对待标注文本数据进行清洗的结果具体为：句子S即待标注文本数据经清洗后得到分词结果W(w1,w2,w3,...,w
m
)，以及使用word2vec训练词的向量V(v1,v2,v3,...,v
n
)。
[0014]其中，W表示当前句子的分词集合，w
m
表示对应词m的TFIDF值，V表示向量集合，总共包括n个维度向量。
[0015]进一步的，步骤S2所述计算目标文本中的句子向量，其数学表达形式为：
[0016][0017]其中，S
e
为句子向量表示，通过对得到的所述TFIDF值和词的向量进行词向量加权得到句子向量表示；w
i
表示当前词i的TFIDF权重；v
n
表示n个维度向量。
[0018]其中，引入TFIDF与word2vec结合求平均作为句子向量，能够既考虑到词级别的ngram模型，也能考虑到词语与词语之间的语义模型综合得到句子向量。
[0019]进一步的，所述步骤S3，具体为：通过LDA算法对目标文本数据进行主题挖掘，并根据困惑度曲线以及相关性得到最佳的主题数目，通过关键词得到对应的主题，所述主题即标签，并对所有样本进行标记，记作T。
[0020]进一步的，所述步骤S4，具体为：对所述句子向量表示S
e
使用Kmeans聚类算法，并根据肘拐点确定最佳K值，对所有样本数据进行类簇标记，记作C；所述最佳K值即当前数据的最佳类簇数，所述样本数据即待标注文本数据。
[0021]进一步的，所述K值的最优解是以成本函数最小化为目标，成本函数为各个类畸变程度之和，每个类的畸变程度等于该类重心与其内部成员位置距离的平方和，但是平均畸变程度会随着K的增大先减小后增大，因此可以求出最小的平均畸变程度。
[0022]其中，确定所述K值的目的是为了确定当前数据需要划分为几类，然后再结合LDA进行双向确定样本标签。
[0023]进一步的，所述对所有样本数据进行类簇标记的过程具体为：样本即待标注的文本数据经过映射为一一对应的样本向量，样本向量经过聚类后可以得到每个向量的类簇ID，进而得到向量对应的样本，最后得到样本对应的类簇标签，通过不断更新迭代簇中心，根据类内的畸变程度，即根据肘拐法确定最佳K值，然后就可以确定当前数据的类簇数就是K个。
[0024]进一步的，所述选取最大的类簇标记C与主题标签T合并，其过程具体为：将T与C结果合并，对于同一主题下的样本数据X，主题为T
i
依次遍历X中含有的类簇个数，选择同类簇数较大的作为标注数据，标签记为T
i
，其他依次类推，直到数据迭代完全或者达到最大迭代次数为止。
[0025]其中，对于不参与计算的所有数据均需要进行二次迭代计算，比如原有数据有M条数据，经过第一轮后，挖掘N条数据标注后，剩下的M
‑
N条继续进行主题与聚类挖掘，由于在第一次已经得到表示向量，在极性第二次计算时无需再次计算，只需进行主题计算与聚类计算即可，得到对应的主题标签T和类簇标记C。
[0026]本专利技术第二方面提供了一种基于Kmeans与LDA结合的标签挖掘系统，包括存储器、处理器，所述存储器中包括基于Kmeans与LDA结合的标签挖掘程序，所述基于Kmeans与LDA结合的标签挖掘程序被所述处理器执行时实现如下步骤：
[0027]S1、获取待标注文本数据。
[0028]S2、对所述待标注文本数据进行除杂处理得到目标文本，并计算目标文本中的句子向量。
[0029]S3、将目标文本输入LDA主题模型得到主题标签T。
[0030]S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C。
[0031]S5、选取最大的类簇标记C与主题标签T合并，将合并结果作为待标注文本数据的
主题标签进行输出；主题标签与类簇标记不一致的待定数据重复执行步骤S2。
[0032]与现有技术相比，本专利技术技术方案的有益效果是：
[0033]本专利技术提供了一种基于Kmeans与LDA结合的标签挖掘方法及装置，借助LDA与Kmeans两种非监督算法相互约束得到标注数据，减少了单一模型带来的误差，实现了从两个维度主题维度和相似度维度确定标签值。
附图说明
[0034]图1为本专利技术一种基于Kmeans与LDA结合的标签挖掘方法的流程图。
[0035]图2为本专利技术一种实施例的流程图。
[0036]图3为本专利技术一种基于Kmeans与LDA结合的标签挖掘系统的示意图。
具体实施方式
[0037]为了能够更清楚地理解本专利技术的上述目的、特征和优点，下面结合附图和具体实施方式对本专利技术进行进一步的详细描述。需要说明的是，在不冲本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种基于Kmeans与LDA结合的标签挖掘方法，其特征在于，包括以下步骤：S1、获取待标注文本数据；S2、对所述待标注文本数据进行除杂处理得到目标文本，并计算目标文本中的句子向量；S3、将目标文本输入LDA主题模型得到主题标签T；S4、根据句子向量和Kmeans聚类算法确定对应句子的类簇标记C；S5、选取最大的类簇标记C与主题标签T合并，将合并结果作为待标注文本数据的主题标签进行输出；主题标签与类簇标记不一致的待定数据重复执行步骤S2。2.根据权利要求1所述的一种基于Kmeans与LDA结合的标签挖掘方法，其特征在于，所述对待标注文本数据进行除杂处理具体为：对待标注文本数据进行清洗得到对应的清洗后的数据，并计算每个词的TFIDF值；所述清洗过程包括有去除无用词、去除重复样本、去除样本中的连续重复词；所述样本即是待标注文本数据。3.根据权利要求2所述的一种基于Kmeans与LDA结合的标签挖掘方法，其特征在于，所述对待标注文本数据进行清洗的结果具体为：句子S即待标注文本数据经清洗后得到分词结果W(w1,w2,w3,...,w
m
)，以及使用word2vec训练词的向量V(v1,v2,v3,...,v
n
)；其中，W表示当前句子的分词集合，w
m
表示对应词m的TFIDF值，V表示向量集合，总共包括n个维度向量。4.根据权利要求3所述的一种基于Kmeans与LDA结合的标签挖掘方法，其特征在于，步骤S2所述计算目标文本中的句子向量，其数学表达形式为：其中，S
e
为句子向量表示，通过对得到的所述TFIDF值和词的向量进行词向量加权得到句子向量表示；w
i
表示当前词i的TFIDF权重；v
n
表示n个维度向量。5.根据权利要求1所述的一种基于Kmeans与LDA结合的标签挖掘方法，其特征在于，所述步骤S3，具体为：通过LDA算法对目标文本数据进行主题挖掘，并根据困惑度曲线以及相关性得到最佳的主题数目，通过关键词得到对应的主题，所述主题即标签，并对所有样本进行标记，记作T。6.根据权利要求4所述的一种基于Kme...

【专利技术属性】
技术研发人员：谭伟，王允，黎明，朱苑萍，李韦，
申请(专利权)人：深圳市龙光云众智慧科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人