文本的主题聚类方法、装置、设备及存储介质制造方法及图纸

技术编号:27284385 阅读:23 留言:0更新日期:2021-02-06 11:52
本申请适用于主题聚类技术领域,提供一种文本的主题聚类方法、装置、设备及存储介质:对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;将属于同一待聚类文本的关键词进行连线生成词对,结合词对中两个关键词之间的相似度值以及含有词对的第一待聚类文本数量,计算出词对在主题聚类任务中的权重值;结合词对以及词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对关键词图进行图分割处理,生成表征聚类主题的主题子图;基于主题子图确定待聚类文本与聚类主题之间的关联度,根据关联度获取待聚类文本的主题。本申请还涉及数字医疗领域,用于提取医疗数据的主题信息。于提取医疗数据的主题信息。于提取医疗数据的主题信息。

【技术实现步骤摘要】
文本的主题聚类方法、装置、设备及存储介质


[0001]本申请涉及深度学习、自然语言处理、主题聚类
,尤其涉及一种文本的主题聚类方法、装置、设备及存储介质。

技术介绍

[0002]随着互联网的快速发展,网络上的信息量与日俱增,对于文本型信息的获取,如何进行精准检索逐渐成为研究的热点话题。文本主题聚类可以协助发现文本中蕴含的主题,并将杂乱的内容聚合到不同的主题中,便于对文本的使用和理解,广泛应用于内容服务的多种场景。在自然语言处理领域,常见用于主题聚类的方法除了有潜在语义索引(Latent Semantic Indexing,LSI)主题模型、隐含狄利克雷分布(Latent Dirichlet Allocation,LDA)主题模型之外,还有基于关键词抽取叠加社区发现算法,该算法的聚类效果相对于主题模型好,然而,目前现有的基于关键词抽取叠加社区发现算法无法提现出关键词与关键词之间的相似性差异,难以准确地反映出文章的主题,主题聚类精准度低。

技术实现思路

[0003]有鉴于此,本申请实施例提供了一种文本的主题聚类方法、装置、设备及存储介质,可以体现关键词与关键词之间的相似性差异,准确地反映出文章的主题,提高主题聚类精准度,便于文章归类和理解。
[0004]本申请实施例的第一方面提供了一种文本的主题聚类方法,包括:
[0005]对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;
[0006]将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值;
[0007]结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;
[0008]基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。
[0009]结合第一方面,在第一方面的第一种可能实现方式中,所述将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值的步骤,包括:
[0010]分别获取所述词对中两个关键词的词向量,计算两个所述关键词的词向量之间的余弦值作为所述两个关键词之间的相似度值;
[0011]将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至
所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值。
[0012]结合第一方面的第一种可能实现方式,在第一方面的第二种可能实现方式中,所述将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值的步骤中,所述词对的权重值由以下关系式获得:
[0013][0014]其中,W
v1-v2
表示为词对v1-v2的权重值;cosine(v1,v2)表示为词对v1-v2中v1与v2这两个关键词之间的相似度值;n表示为需要进行主题聚类的所有待聚类文本中含有词对v1-v2的第一待聚类文本数量。
[0015]结合第一方面,在第一方面的第三种可能实现方式中,所述结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图的步骤,还包括:
[0016]基于所述关键词图,为所述关键词图中的关键词配置计数器,用于记录所述主题聚类任务中含有所述关键词的第二待聚类文本数量。
[0017]结合第一方面,在第一方面的第四种可能实现方式中,所述基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题的步骤,包括:
[0018]统计所述待聚类文本中属于所述聚类主题的关键词数量,根据所述待聚类文本中属于所述聚类主题的关键词数量确定所述待聚类文本与所述聚类主题之间的关联度;或/及
[0019]计算所述待聚类文本与所述聚类主题中的关键词之间的相似度值,根据所述待聚类文本与所述聚类主题中的关键词之间的相似度值确定所述待聚类文本与所述聚类主题之间的关联度。
[0020]结合第一方面的第四种可能实现方式,在第一方面的第五种可能实现方式中,所述计算所述待聚类文本与所述聚类主题中的关键词之间的相似度值,根据所述待聚类文本与所述聚类主题中的关键词之间的相似度值确定所述待聚类文本与所述聚类主题之间的关联度的步骤,包括:
[0021]根据预设的文本向量匹配模型获取所述待聚类文本的文本向量;
[0022]将属于所述聚类主题的关键词的词向量与所述待聚类文本的文本向量进行点积求和处理,计算出所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值;
[0023]通过将所述聚类主题中的每个关键词与所述待聚类文本之间的相似度值进行累加整合,确定出所述待聚类文本与所述聚类主题之间的关联度。
[0024]结合第一方面的第五种可能实现方式,在第一方面的第六种可能实现方式中,所述根据预设的文本向量匹配模型获取所述待聚类文本的文本向量的步骤之前,还包括:
[0025]基于主题聚类任务中的待聚类文本以及表征待聚类文本的关键词构建用于模型
训练的正样本和负样本,其中,所述正样本包括待聚类文本以及表征所述待聚类文本的关键词,所述负样本包括待聚类文本以及表征其他待聚类文本的关键词;
[0026]结合hinge损失函数,采用所述正样本和负样本进行模型训练,以生成预设的文本向量匹配模型。
[0027]本申请实施例的第二方面提供了一种文本的主题聚类装置,所述文本的主题聚类装置包括:
[0028]获取模块,用于对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;
[0029]计算模块,用于将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值;
[0030]分割模块,用于结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;
[0031]确定模块,用于基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的主题聚类方法,其特征在于,包括:对主题聚类任务中的待聚类文本进行分词处理,获取表征待聚类文本的关键词;将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值;结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图;基于所述主题子图确定所述待聚类文本与所述聚类主题之间的关联度,根据所述关联度获取所述待聚类文本的主题。2.根据权利要求1所述的文本的主题聚类方法,其特征在于,所述将属于同一待聚类文本的关键词进行连线生成词对,结合所述词对中两个关键词之间的相似度值以及含有所述词对的第一待聚类文本数量,计算出所述词对在所述主题聚类任务中的权重值的步骤,包括:分别获取所述词对中两个关键词的词向量,计算两个所述关键词的词向量之间的余弦值作为所述两个关键词之间的相似度值;将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值。3.根据权利要求2所述的文本的主题聚类方法,其特征在于,所述将所述相似度值作为所述词对的初始权重值,通过遍历所述主题聚类任务中的所有待聚类文本,每新识别出一篇含有所述词对的待聚类文本时,则按照当前识别出的含有所述词对的第一待聚类文本数量以指数幂递减的方式对所述词对进行权重叠加处理,直至所述主题聚类任务中的所有待聚类文本遍历完成为止,以计算出所述词对在所述主题聚类任务中的权重值的步骤中,所述词对的权重值由以下关系式获得:其中,W
v1-v2
表示为词对v1-v2的权重值;cosine(v1,v2)表示为词对v1-v2中v1与v2这两个关键词之间的相似度值;n表示为需要进行主题聚类的所有待聚类文本中含有词对v1-v2的第一待聚类文本数量。4.根据权利要求1所述的文本的主题聚类方法,其特征在于,所述结合所述词对以及所述词对的权重值构建用于进行文本聚类分析的关键词图,并通过社区发现算法对所述关键词图进行图分割处理,生成表征聚类主题的主题子图的步骤,还包括:基于所述关键词图,为所述关键词图中的关键词配置计数器,用于记录所述主题聚类任务中含有所述关键词的第二待聚类文本数量。5.根据权利要求1所述的文本的主题聚类方法,其特征在于,所述基于所述主题子图确定所述待聚类文本与所述聚类主题...

【专利技术属性】
技术研发人员:郑勇升
申请(专利权)人:中国平安人寿保险股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1