一种基于多义词和同义词的聚类矫正方法技术

技术编号:38145164 阅读:18 留言:0更新日期:2023-07-08 10:02
本发明专利技术公开了一种基于多义词和同义词的聚类矫正方法,包括以下步骤:构建文本语料库并统计文本的词频信息;在文本的上下文中找出含有多义词或同义词的句子;对于多义词,提取原始句子的特征向量,进行多义矫正,计算词向量的余弦相似度;对于同义词,使用word2vec模型训练文本的上下文重建文本语料库,将单词表示成一个长向量,输入到机器学习模型当中作为语料库,进行同义矫正,将数字存储在哈希表中;进行迭代优化,计算梯度,并在非叶节点处提取向量;本方案通过关注聚类过程中的多义词和同义词问题,使用词袋模型来区分相同词语的语境以及通过word2vec模型来重新聚类具有相似含义的词,达到聚类过程纠正的目的。达到聚类过程纠正的目的。达到聚类过程纠正的目的。

【技术实现步骤摘要】
一种基于多义词和同义词的聚类矫正方法


[0001]本专利技术涉及文本聚类领域,特别涉及一种基于多义词和同义词的聚类矫正方法。

技术介绍

[0002]在机器学习中,一个重要的任务就是需要定量化描述数据中的集聚现象。聚类分析也是模式识别和数据挖掘领域一个极富有挑战性的研究方向,它是在无监督学习下探索数据对象的合适的簇的过程,在探索过程中,簇与簇之间的数据对象差异越来越明显,簇内的数据对象之间差异越来越小。最终在已知无标签的数据集上找到合适的簇,将这些无标签的数据合理的划分到合适的簇中。其中,文本聚类是聚类分析在文本中的应用,它主要应用于自动化文档管理、主题抽取和快速信息检索过滤等方面。一般来说,文档聚类有两种常见的算法。第一种是基于层次的算法,这种算法并不能有效地处理所有的问题;另一种算法是使用K

means算法及其变体的开发;一方面,分层算法可以详细分析并生成更深入的信息,另一方面,基于K

means算法及其变体的算法对深入信息挖掘更为有效,并为大多数模型提供足够的样本信息。
[0003]然而,近年来,随着互联网技术日新月异,信息规模指数级增长,每一天都能够带来海量信息,这些信息大部分来自一些主流平台,这些信息往往具有短文本、口语化、富含噪声、网络迭代快等特点,因此传统的聚类算法并不适合,要想及时的挖掘出文本中潜在的语义关联并不容易。要对海量文本进行聚类分析不仅需要有强大的数据分析与处理能力,更需要对语义信息进行修正,从而能够更好的契合现实发展的需要。
[0004]现有的聚类方法包括凝聚聚类、具有噪声的基于密度的空间聚类应用density

based spatial clustering of applications with noise、高斯混合聚类等。它们具有一些相同的缺陷:在文档聚类过程中,文本和语句通常表示为向量,在这种情况下,许多多义词不能被很好的描述。一方面,某些名词或者缩写有时会干扰特定区域的聚类过程;另一方面,许多相似的词或短句不能很好的收集在一起,在某种程度上造成语义信息的丢失,这使得聚类算法在特定场景中的应用变得不够准确。它们也有一些不同的缺陷:凝聚聚类在聚类的过程中,由于每次只能合并两个簇,导致这一过程的计算复杂度高,因此这种聚类方法不适用于大数据量的聚类;具有噪声的基于密度的空间聚类应用在遇到簇之间的密度不均匀的场景下,聚类效果将会非常差,并且它跟凝聚聚类一样,无法对新的数据进行预测;高斯混合聚类的缺点是计算量大,导致该方法的性能存在局限。
[0005]在聚类过程,有时会将含义相似的词语分配在同一类中,这降低了聚类的准确性,有时这个问题存在于一个单词和一个短语之间,尽管他们的意思是相近的,但它们的形式却不同,这需要从实际的语境来考察这些词句之间的异同。

技术实现思路

[0006]为此,需要提供一种通过关注聚类过程中的多义词和同义词问题,使用词袋模型来区分相同词语的语境以及通过word2vec模型来重新聚类具有相似含义的词,提高聚类算
法、达到聚类过程纠正的作用。
[0007]为实现上述目的,专利技术人提供了一种基于多义词和同义词的聚类矫正方法,包括以下步骤:
[0008]S101、构建文本语料库并统计文本的词频信息;
[0009]S102、在文本的上下文中找出含有多义词或同义词的句子;
[0010]S103、对于多义词,使用词袋模型提取原始句子的特征向量;
[0011]S104、对于多义词,在词袋模型中,保留多义词的上下文作为特征向量;
[0012]S105、对于多义词,提取含有多义词的句子后,计算余弦相似度;
[0013]S106、对于多义词,进行多义矫正,计算词向量的余弦相似度;
[0014]S107、对于同义词,使用word2vec模型训练文本的上下文重建文本语料库;
[0015]S108、对于同义词,首先创建一个词典并通过One

hot代表法对每个单词顺序进行排序,给每个单词分配一个序号,将单词表示成一个长向量;
[0016]S109、对于同义词,将单词转换成一组数字向量输入到机器学习模型当中作为语料库;
[0017]S110、对于同义词,进行同义矫正,通过扫描语料库,将数字存储在哈希表中;
[0018]S111、对于同义词矫正,根据词频出现情况创建霍夫曼树,将每个单词添加到霍夫曼树中作为叶节点,其中词频是对应的权重,非叶节点代表某一类的词;
[0019]S112、对于同义词矫正,初始化词向量,对霍夫曼树的词向量和非叶节点向量进行初始化;
[0020]S113、进行迭代优化,按短句遍历语料库,计算梯度,用梯度下降法更新词向量值,并在非叶节点处提取向量。
[0021]作为本专利技术的一种优选方式,步骤S101中,统计文本的词频信息是通过术语频率和反向文档词频来计算文本语料库中句子出现的频率,即词频信息。
[0022]作为本专利技术的一种优选方式,所述步骤S102是通过余弦相似度计算词向量和句子向量的相似度在文本的上下文中找出含有多义词或同义词的句子,表达式为:
[0023][0024]其中,similarity代表两个文本向量的相似度,cos(θ)代表两个向量的点积和,A与B分别代表两个属性向量。
[0025]作为本专利技术的一种优选方式,所述步骤S106包括:每个句子均会被一个模块提取出来,并存储为一个术语向量,术语向量中的术语以其词根形式存在,并过滤掉停止词。
[0026]作为本专利技术的一种优选方式,所述步骤S108包括:通过训练将每个词映射成一个K维的实数向量,K为参数,然后计算余弦相似度和欧氏距离来确定语义相似度,创建一个词典并通过One

hot代表法对每个单词顺序进行排序,给每个单词分配一个序号,将单词表示成一个长向量。
[0027]作为本专利技术的一种优选方式,所述步骤S111包括:围绕上下文词c中预测目标词t,目标是在训练集上最大化P(t|c),在时间T上,以最小化当前目标词t和上下文词c的向量之
间的距离增加P(t|c),并循环此过程。
[0028]作为本专利技术的一种优选方式,步骤S113中,进行迭代优化,按短句遍历语料库,计算梯度,使用带负采样的Skip

gram模型对同义词纠正提取信息,用梯度下降法更新词向量值,并在非叶节点处提取向量。
[0029]区别于现有技术,上述技术方案所达到的有益效果有:本方法研究了聚类过程中的多义词和同义词问题,对聚类结果进行矫正,解决了聚类过程中存在的多义词与同义词问题。对于多义问题,利用词袋模型提取含有多义词的句子,计算余弦相似度,并根据欧式距离把词语的含义分隔开来。对于同义问题,使用word2vec模型对意义相近的词进行聚类。其中,余弦相似度用于度量两个非零词向量之间的相似度,并根据实际情况设置阈值,用以判断两个词语是否为同义词,此外,还通过同义词本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多义词和同义词的聚类矫正方法,其特征在于,包括以下步骤:S101、构建文本语料库并统计文本的词频信息;S102、在文本的上下文中找出含有多义词或同义词的句子;S103、对于多义词,使用词袋模型提取原始句子的特征向量;S104、对于多义词,在词袋模型中,保留多义词的上下文作为特征向量;S105、对于多义词,提取含有多义词的句子后,计算余弦相似度;S106、对于多义词,进行多义矫正,计算词向量的余弦相似度;S107、对于同义词,使用word2vec模型训练文本的上下文重建文本语料库;S108、对于同义词,首先创建一个词典并通过One

hot代表法对每个单词顺序进行排序,给每个单词分配一个序号,将单词表示成一个长向量;S109、对于同义词,将单词转换成一组数字向量输入到机器学习模型当中作为语料库;S110、对于同义词,进行同义矫正,通过扫描语料库,将数字存储在哈希表中;S111、对于同义词矫正,根据词频出现情况创建霍夫曼树,将每个单词添加到霍夫曼树中作为叶节点,其中词频是对应的权重,非叶节点代表某一类的词;S112、对于同义词矫正,初始化词向量,对霍夫曼树的词向量和非叶节点向量进行初始化;S113、进行迭代优化,按短句遍历语料库,计算梯度,用梯度下降法更新词向量值,并在非叶节点处提取向量。2.根据权利要求1所述的基于多义词和同义词的聚类矫正方法,其特征在于,步骤S101中,统计文本的词频信息是通过术语频率和反向文档词频来计算文本语料库中句子出现的频率,即词频信息。3.根据权利要求1所述的...

【专利技术属性】
技术研发人员:郑志松林锋吴运昌丁仙峰
申请(专利权)人:江苏数兑科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1