一种基于多义词和同义词的聚类矫正方法技术

技术编号：38145164 阅读：18 留言：0更新日期：2023-07-08 10:02

本发明专利技术公开了一种基于多义词和同义词的聚类矫正方法，包括以下步骤：构建文本语料库并统计文本的词频信息；在文本的上下文中找出含有多义词或同义词的句子；对于多义词，提取原始句子的特征向量，进行多义矫正，计算词向量的余弦相似度；对于同义词，使用word2vec模型训练文本的上下文重建文本语料库，将单词表示成一个长向量，输入到机器学习模型当中作为语料库，进行同义矫正，将数字存储在哈希表中；进行迭代优化，计算梯度，并在非叶节点处提取向量；本方案通过关注聚类过程中的多义词和同义词问题，使用词袋模型来区分相同词语的语境以及通过word2vec模型来重新聚类具有相似含义的词，达到聚类过程纠正的目的。达到聚类过程纠正的目的。达到聚类过程纠正的目的。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多义词和同义词的聚类矫正方法

[0001]本专利技术涉及文本聚类领域，特别涉及一种基于多义词和同义词的聚类矫正方法。

技术介绍

[0002]在机器学习中，一个重要的任务就是需要定量化描述数据中的集聚现象。聚类分析也是模式识别和数据挖掘领域一个极富有挑战性的研究方向，它是在无监督学习下探索数据对象的合适的簇的过程，在探索过程中，簇与簇之间的数据对象差异越来越明显，簇内的数据对象之间差异越来越小。最终在已知无标签的数据集上找到合适的簇，将这些无标签的数据合理的划分到合适的簇中。其中，文本聚类是聚类分析在文本中的应用，它主要应用于自动化文档管理、主题抽取和快速信息检索过滤等方面。一般来说，文档聚类有两种常见的算法。第一种是基于层次的算法，这种算法并不能有效地处理所有的问题；另一种算法是使用K
‑
means算法及其变体的开发；一方面，分层算法可以详细分析并生成更深入的信息，另一方面，基于K
‑
means算法及其变体的算法对深入信息挖掘更为有效，并为大多数模型提供足够的样本信息。
[0003]然而，近年来，随着互联网技术日新月异，信息规模指数级增长，每一天都能够带来海量信息，这些信息大部分来自一些主流平台，这些信息往往具有短文本、口语化、富含噪声、网络迭代快等特点，因此传统的聚类算法并不适合，要想及时的挖掘出文本中潜在的语义关联并不容易。要对海量文本进行聚类分析不仅需要有强大的数据分析与处理能力，更需要对语义信息进行修正，从而能够更好的契合现实发展的需要。
[0004...

【技术保护点】

【技术特征摘要】
1.一种基于多义词和同义词的聚类矫正方法，其特征在于，包括以下步骤：S101、构建文本语料库并统计文本的词频信息；S102、在文本的上下文中找出含有多义词或同义词的句子；S103、对于多义词，使用词袋模型提取原始句子的特征向量；S104、对于多义词，在词袋模型中，保留多义词的上下文作为特征向量；S105、对于多义词，提取含有多义词的句子后，计算余弦相似度；S106、对于多义词，进行多义矫正，计算词向量的余弦相似度；S107、对于同义词，使用word2vec模型训练文本的上下文重建文本语料库；S108、对于同义词，首先创建一个词典并通过One
‑
hot代表法对每个单词顺序进行排序，给每个单词分配一个序号，将单词表示成一个长向量；S109、对于同义词，将单词转换成一组数字向量输入到机器学习模型当中作为语料库；S110、对于同义词，进行同义矫正，通过扫描语料库，将数字存储在哈希表中；S111、对于同义词矫正，根据词频出现情况创建霍夫曼树，将每个单词添加到霍夫曼树中作为叶节点，其中词频是对应的权重，非叶节点代表某一类的词；S112、对于同义词矫正，初始化词向量，对霍夫曼树的词向量和非叶节点向量进行初始化；S113、进行迭代优化，按短句遍历语料库，计算梯度，用梯度下降法更新词向量值，并在非叶节点处提取向量。2.根据权利要求1所述的基于多义词和同义词的聚类矫正方法，其特征在于，步骤S101中，统计文本的词频信息是通过术语频率和反向文档词频来计算文本语料库中句子出现的频率，即词频信息。3.根据权利要求1所述的...

【专利技术属性】
技术研发人员：郑志松，林锋，吴运昌，丁仙峰，
申请(专利权)人：江苏数兑科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人