话题聚类方法、装置、电子设备及存储介质制造方法及图纸

技术编号：25637233 阅读：40 留言：0更新日期：2020-09-15 21:29

本发明专利技术涉及人工智能领域，提供一种话题聚类方法、装置、电子设备及存储介质。该方法能够基于正则表达式匹配算法对多篇文本进行预处理，删除对聚类没有意义的冗余词，降低干扰词的影响，以提升聚类效率，识别并删除预处理后的多篇文本中的无效信息，得到初始文本集，将初始文本集输入到预先训练的聚类模型中，输出聚类结果，所述聚类模型是基于K‑means算法训练两层栈式去噪自编码器而得到，将传统的K‑means聚类与深度学习算法进行了融合，同时，采用SDAE结构，有效提高了长文本的语义表示能力，对算法的效果也有明显提升，进而实现了端到端的细粒度话题聚类。本发明专利技术还涉及区块链技术，聚类模型可存储于区块链中。

全部详细技术资料下载

【技术实现步骤摘要】
话题聚类方法、装置、电子设备及存储介质
本专利技术涉及人工智能
，尤其涉及一种话题聚类方法、装置、电子设备及存储介质。
技术介绍
聚类是许多数据驱动应用领域的核心，尤其是在新闻资讯领域，通过话题聚类能够确定热点资讯。然而，传统的话题聚类算法主要是针对新闻报道的在线聚类，更加注重的是算法的高效性，虽然改善了算法聚类的时间复杂度，但是算法的准确率却不高，并且，由于缺乏对文本的语义理解，传统机器学习算法无法对细粒度的话题有很好的区分度。
技术实现思路
鉴于以上内容，有必要提供一种话题聚类方法、装置、电子设备及存储介质，能够将传统的K-means聚类与深度学习算法进行了融合，同时，采用SDAE结构，有效提高了长文本的语义表示能力，对算法的效果也有明显提升，进而实现了端到端的细粒度话题聚类。一种话题聚类方法，所述方法包括：响应于接收到的多篇文本，基于正则表达式匹配算法对所述多篇文本进行预处理；识别预处理后的多篇文本中的无效信息；从所述预处理后的多篇文本中删除所述无效信息...

【技术保护点】
1.一种话题聚类方法，其特征在于，所述方法包括：/n响应于接收到的多篇文本，基于正则表达式匹配算法对所述多篇文本进行预处理；/n识别预处理后的多篇文本中的无效信息；/n从所述预处理后的多篇文本中删除所述无效信息，得到初始文本集；/n将所述初始文本集输入到预先训练的聚类模型中，输出聚类结果，所述聚类模型是基于K-means算法训练两层栈式去噪自编码器而得到。/n

【技术特征摘要】
1.一种话题聚类方法，其特征在于，所述方法包括：
响应于接收到的多篇文本，基于正则表达式匹配算法对所述多篇文本进行预处理；
识别预处理后的多篇文本中的无效信息；
从所述预处理后的多篇文本中删除所述无效信息，得到初始文本集；
将所述初始文本集输入到预先训练的聚类模型中，输出聚类结果，所述聚类模型是基于K-means算法训练两层栈式去噪自编码器而得到。

2.如权利要求1所述的话题聚类方法，其特征在于，所述基于正则表达式匹配算法对所述多篇文本进行预处理包括：
基于所述正则表达式对所述多篇文本进行拆分；
将拆分后的文本与配置表达式进行匹配；
从所述多篇文本中删除匹配的文本。

3.如权利要求1所述的话题聚类方法，其特征在于，所述方法还包括：
对所述两层栈式去噪自编码器的每一层进行预训练；
获取所述聚类模型的训练样本；
将所述训练样本输入至预训练后的两层栈式去噪自编码器，输出所述训练样本的文本表示；
从所述训练样本的文本表示中随机抽取数据生成多个mini-batch数据；
确定重构损失、数据损失及成对损失；
计算所述重构损失、所述数据损失及所述成对损失的和作为损失函数；
结合所述损失函数，采用迭代法，基于K-means算法计算所述多个mini-batch数据到质心的距离，并基于所述距离确定多个簇，及确定所述多个簇的中心点参数；
响应于当前轮次与上一轮次的距离变化量小于总变化量与配置值的乘积，停止迭代，得到所述聚类模型，存储所述聚类模型至区块链中。

4.如权利要求3所述的话题聚类方法，其特征在于，所述对所述两层栈式去噪自编码器的每一层进行预训练包括：
获取对应于多种训练任务的训练数据；
基于所述训练数据分别对所述两层栈式去噪自编码器的每一层进行训练。

【专利技术属性】
技术研发人员：杨凤鑫，徐国强，
申请(专利权)人：深圳壹账通智能科技有限公司，
类型：发明
国别省市：广东;44

全部详细技术资料下载我是这个专利的主人