一种基于同义词词林语义相似度的文本聚类方法技术

技术编号:23605275 阅读:23 留言:0更新日期:2020-03-28 06:13
本发明专利技术涉及一种基于同义词词林语义相似度的文本聚类方法,包括:获取原始文本集;对所述原始文本集中的每篇文本,进行预处理,得到每篇文本的文本特征词集;采用TF‑IDF方法获取每一特征词项频率的权值并存储在HashMap中;并获取与所述文本特征词集对应的文本的关键特征词;基于所述原始文本集,确定原始文本集中的任意K篇文本分别为初始聚类中心;分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度;将所述第二文本集中的文本分别分配给与所述第二文本集中的文本相似度最大的初始聚类中心所属的类簇;获取所述K个类簇中的关键特征词权值的平均值;获取新的聚类中心,重复步骤直至新的聚类中心相对稳定。

A text clustering method based on semantic similarity of synonym forest

【技术实现步骤摘要】
一种基于同义词词林语义相似度的文本聚类方法
本专利技术涉及一种基于同义词词林语义相似度的文本聚类方法。
技术介绍
文本挖掘是提取并挖掘分布在文本数据集中所需、有价值、有用的知识,并且利用这些知识更好地组织信息的过程。文本挖掘利用智能算法,结合文字处理技术,分析大量的无规则的文本集(文本源),将蕴含在文本集中有用的信息提取出来,并按照提取出来的信息对文本集进行分类,通过这一过程,能方便我们更好的组织、获取这些有用的信息。文本挖掘是应用于我们生活的方方面面,为我们提取信息提供了一种高效快捷的方法。目前文本挖掘的主要研究内容包括关联分析、文本分类、文本聚类(TextClustering)等。文本聚类可以对文本的信息进行有效的组织、分类等处理能够帮助用户快速、准确获取所需信息。由于其不需要训练,不需要手动的对文档进行分类与标注,因此文本聚类的灵活性较强,目前成为对一个文本集进行有效的分类、组织主要工具。目前绝大多数的聚类算法对词层面进行简单处理,如空间向量模型,在进行相似度计算时,没有充分挖掘文本的语义信息,忽略了特征项间的语义联系,它假定特征项之间是相互独立的,因此造成文本语义信息丢失,无法挖掘蕴含在文本中的语义信息,同时空间向量模型表示文本存在高维稀疏问题,最终导致聚类的准确度较低。
技术实现思路
(一)要解决的技术问题为了解决现有技术的上述问题,本专利技术提供一种基于同义词词林语义相似度的文本聚类方法。(二)技术方案为了达到上述目的,本专利技术提供一种基于同义词词林语义相似度的文本聚类方法,包括步骤:A1、获取原始文本集;所述原始文本集包括多篇不同类别的文本;A2、对所述原始文本集中的每篇文本,进行预处理,得到每篇文本的文本特征词集;所述文本特征词集包括与所述文本特征词集对应的文本中的多个特征词项;A3、针对所述每个文本特征词集,采用TF-IDF方法获取每一特征词项在所属的文本中出现的频率的权值并存储在HashMap中;A4、根据HashMap中每一文本特征词集中的特征词项权值,得到每一文本特征词集中的特征词项权值由高到低排列的第一序列,并获取与所述文本特征词集对应的文本的关键特征词;所述文本的关键特征词:为所述第一序列中的前N个特征词项权重值所对应的特征词项;其中,N为预先设定的第一序列中特征词项权值数量的百分比;A5、基于所述原始文本集,获取K个初始聚类中心;其中,K为预先设定值;所述每个初始聚类中心均包括:所述原始文本集中的任意一篇文本;A6、基于所述初始聚类中心和第二文本集,分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度;其中,所述第二文本集中的文本包括:所述原始文本集中的K个初始聚类中心所对应K篇文本的其余文本;A7、基于第二文本集中的文本与每个初始聚类中心的语义相似度,将所述第二文本集中的文本分别分配给与所述第二文本集中的文本相似度最大的初始聚类中心所属的类簇,获取K个类簇;A8、获取所述K个类簇中的关键特征词权值的平均值;A9、基于所述K个类簇中的关键特征词权值的平均值,获取新的聚类中心,并重复步骤A6至A9直至新的聚类中心相对稳定。优选的,所述预处理包括:分词、去除停用词、歧义消除。优选的,所述步骤A6包括:A6-1、根据每一文本的文本特征词集,获取所述第二文本集中的每篇文本中的特征词项和初始聚类中心的特征词项;A6-2、基于所述第二文本集中的每篇文本中的特征词项和初始聚类中心的特征词项以及预先设定的同义词词林树状结构,分别获取所述同义词词林树状结构中与所述第二文本集中的每篇文本中的特征词项所对应的编码和所述同义词词林树状结构中与所述初始聚类中心的特征词项所对应的编码;其中,所述同义词词林树状结构包括具有多个分支层的多层结构和多个树状结构;所述每层结构中均具有多个词语项;所述多个词语项包括:多个特征词项;所述词语项均具有编码;所述编码为识别具有编码的词语项在所述同义词词林树状结构中分支层位置和树状位置的编码;A6-3、基于所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项在所述同义词词林结构中所对应的编码,获取所述特征词项在所述同义词词林中的分支层位置或树状位置;A6-4、基于所述词语项在同义词词林中的分支层位置和/或树状位置或编码,获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项的相似度值;A6-5、判断所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度是否满足预先设定阈值;A6-6、若满足,则利用TF-IDF方法获取所述满足预先设定阈值的词语项在所述特征词项所属的文本中的权值;A6-7、根据公式(1)和(2),分别获取所述第二文本集中的每一篇文本中满足预先设定的阈值的特征值数据和初始聚类中心满足预先设定的阈值的特征值数据;其中,|Ai|,|Aj|分别表示这两个集合中满足阈值条件的特征值数据;A6-8、基于公式(3)获取第二文本集中的文本和初始聚类中心的相似度;Tsim(Di,Dj)=tf×sim(Di,Dj)(3);其中tf为权值因子;且其中,Di=[(ti1,Wi1),(ti2,Wi2),…,(tim,Wim)代表第二文本集中的第i个文本的向量;Dj=[(tj1,Wj1),(tj2,Wj2),…,(tjm,Wjm)代表K个初始聚类中心中的第j个初始聚类中心的向量;sim(Di,Dj)表示Di,Dj两个文本的余弦相似度。优选的,所述步骤A6-4步骤具体包括:若文本中的特征词项和初始聚类中心的特征词项不在同义词词林相同树状位置上,则根据公式(4)获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项的相似度值;Wsim(w1,w2)=g(4);其中g为常数;若文本中的特征词项和初始聚类中心的特征词项在同义词词林相同树状位置上,并位于第二层分支,则根据公式(5)获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值;其中,其中,freq(w)=∑count(w),w为从特征词项w1所在的分支层到特征词项w2所在的分支层之间包含的词语项,∑count(w)为词语项的总数,N为w1和w2所在分支的全部词语项总数;b为第一系数;n代表分支层的节点总数;若文本中的特征词项和初始聚类中心的特征词项在同义词词林相同树状位置上,并位于第三层分支,则根据公式(6)获取所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度值;其中,c为第二系数;若文本中的特征词项和初始聚类中心的特征词项在同义词词林相同树状位置上,并位于第四层分支,则根据公式(7)获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项本文档来自技高网...

【技术保护点】
1.一种基于同义词词林语义相似度的文本聚类方法,其特征在于,包括步骤:/nA1、获取原始文本集;所述原始文本集包括多篇不同类别的文本;/nA2、对所述原始文本集中的每篇文本,进行预处理,得到每篇文本的文本特征词集;所述文本特征词集包括与所述文本特征词集对应的文本中的多个特征词项;/nA3、针对所述每个文本特征词集,采用TF-IDF方法获取每一特征词项在所属的文本中出现的频率的权值并存储在HashMap中;/nA4、根据HashMap中每一文本特征词集中的特征词项权值,得到每一文本特征词集中的特征词项权值由高到低排列的第一序列,并获取与所述文本特征词集对应的文本的关键特征词;/n所述文本的关键特征词:为所述第一序列中的前N个特征词项权重值所对应的特征词项;/n其中,N为预先设定的第一序列中特征词项权值数量的百分比;/nA5、基于所述原始文本集,获取K个初始聚类中心;其中,K为预先设定值;所述每个初始聚类中心均包括:所述原始文本集中的任意一篇文本;/nA6、基于所述初始聚类中心和第二文本集,分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度;/n其中,所述第二文本集中的文本包括:所述原始文本集中的K个初始聚类中心所对应K篇文本的其余文本;/nA7、基于第二文本集中的文本与每个初始聚类中心的语义相似度,将所述第二文本集中的文本分别分配给与所述第二文本集中的文本相似度最大的初始聚类中心所属的类簇,获取K个类簇;/nA8、获取所述K个类簇中的关键特征词权值的平均值;/nA9、基于所述K个类簇中的关键特征词权值的平均值,获取新的聚类中心,并重复步骤A6至A9直至新的聚类中心相对稳定。/n...

【技术特征摘要】
1.一种基于同义词词林语义相似度的文本聚类方法,其特征在于,包括步骤:
A1、获取原始文本集;所述原始文本集包括多篇不同类别的文本;
A2、对所述原始文本集中的每篇文本,进行预处理,得到每篇文本的文本特征词集;所述文本特征词集包括与所述文本特征词集对应的文本中的多个特征词项;
A3、针对所述每个文本特征词集,采用TF-IDF方法获取每一特征词项在所属的文本中出现的频率的权值并存储在HashMap中;
A4、根据HashMap中每一文本特征词集中的特征词项权值,得到每一文本特征词集中的特征词项权值由高到低排列的第一序列,并获取与所述文本特征词集对应的文本的关键特征词;
所述文本的关键特征词:为所述第一序列中的前N个特征词项权重值所对应的特征词项;
其中,N为预先设定的第一序列中特征词项权值数量的百分比;
A5、基于所述原始文本集,获取K个初始聚类中心;其中,K为预先设定值;所述每个初始聚类中心均包括:所述原始文本集中的任意一篇文本;
A6、基于所述初始聚类中心和第二文本集,分别获取第二文本集中的每篇文本与每一初始聚类中心的的语义相似度;
其中,所述第二文本集中的文本包括:所述原始文本集中的K个初始聚类中心所对应K篇文本的其余文本;
A7、基于第二文本集中的文本与每个初始聚类中心的语义相似度,将所述第二文本集中的文本分别分配给与所述第二文本集中的文本相似度最大的初始聚类中心所属的类簇,获取K个类簇;
A8、获取所述K个类簇中的关键特征词权值的平均值;
A9、基于所述K个类簇中的关键特征词权值的平均值,获取新的聚类中心,并重复步骤A6至A9直至新的聚类中心相对稳定。


2.根据权利要求1所述的方法,其特征在于,所述预处理包括:分词、去除停用词、歧义消除。


3.根据权利要求2所述的方法,其特征在于,所述步骤A6包括:
A6-1、根据每一文本的文本特征词集,获取所述第二文本集中的每篇文本中的特征词项和初始聚类中心的特征词项;
A6-2、基于所述第二文本集中的每篇文本中的特征词项和初始聚类中心的特征词项以及预先设定的同义词词林树状结构,分别获取所述同义词词林树状结构中与所述第二文本集中的每篇文本中的特征词项所对应的编码和所述同义词词林树状结构中与所述初始聚类中心的特征词项所对应的编码;
其中,所述同义词词林树状结构包括具有多个分支层的多层结构和多个树状结构;
所述每层结构中均具有多个词语项;
所述多个词语项包括:多个特征词项;
所述词语项均具有编码;
所述编码为识别具有编码的词语项在所述同义词词林树状结构中分支层位置和树状位置的编码;
A6-3、基于所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项在所述同义词词林结构中所对应的编码,获取所述特征词项在所述同义词词林中的分支层位置或树状位置;
A6-4、基于所述词语项在同义词词林中的分支层位置和/或树状位置或编码,获取所述所述第二文本集中的文本中的特征词项和初始聚类中心的的特征词项的相似度值;
A6-5、判断所述第二文本集中的文本中的特征词项和初始聚类中心的特征词项的相似度是否满足预先设定阈值;
A6-6、若满足,则利用TF-IDF方法获取所述满足预先设定阈值的词语项在所述特征词项所属的文本中的权值;
A6-7、根据公式(1)和(2),...

【专利技术属性】
技术研发人员:康斌罗可罗潇
申请(专利权)人:长沙理工大学
类型:发明
国别省市:湖南;43

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1