一种面向图书市场书名的短文本聚类方法技术

技术编号：14568385 阅读：137 留言：0更新日期：2017-02-06 02:03

本发明专利技术提供一种面向图书市场书名的短文本聚类方法，包括：对文本数据及设定的聚类关键词进行词向量化，计算文本数据词向量到所述聚类关键词向量的距离，根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据的聚类类型，根据所述文本数据的聚类类型将所述文本数据划分到对应的聚类集合；计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据的聚类类型。采用本发明专利技术实施例提供的方法，能够更加准确地确定文本数据的聚类类型，使聚类结果能够更接近用户的实际需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机
，尤其涉及一种面向图书市场书名的短文本聚类方法。
技术介绍
随着在互联网对传统行业的深度改造，互联网电子商务网站迅速发展,网上购物成了潮流。电商网站拥有海量的商品。由于网上的商品信息错综复杂，分类繁琐，更新比率快，对商品进人工标注往往会耗费大量的人力，因此自动化的将商品进行分类成为了电商的基本需求。针对于商品的分类，国内外往往采用数据挖掘的方法进行操作。现有技术中，通常采用K均值(K-means)聚类算法对商品进行分类。K-means算法是无监督聚类算法，是基于数据点到原型的某种距离作为优化的目标函数，利用函数求极值的方法得到迭代运算的调整规则。例如，在短文本聚类领域，针对书籍名称进行聚类时，通过K-means算法随机选定k个聚类关键词，计算每个书籍名称相对于选定聚类关键词的距离，选取距离最小的聚类关键词作为书籍名称的类，根据每一类中书籍名称的平均值，重新计算每个聚类关键词，重复进行以上过程，直到每个类中的书籍名称不再变化。但是，采用传统的k-means聚类算法，聚类关键词的数目不可预测，且采用不同的初始聚类关键词得到的聚类结果往往会有较大偏差，如果聚类关键词选择了密集数据的边缘区域或者噪声数据，会对聚类结果造成极大影响。
技术实现思路
本专利技术实施例提供一种面向图书市场书名的短文本聚类方法，用于解决现有技术中的聚类方法不能准确地对图书市场书名进行聚类的问题。r>本专利技术实施例提供一种面向图书市场书名的短文本聚类方法，包括：对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；计算文本数据词向量到所述聚类关键词向量的距离；根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据词向量的聚类类型将所述文本数据词向量划分到对应的聚类集合；计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值；确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。另一实施例中，所述计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的词频，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，包括：根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，其中，TF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，IDF表示所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合中的出现频率，nik为第i个聚类集合中包含特征词k的文本数量，Si为第i个聚类集合中的文本数据词向量的总数，n～ik为在第i个聚类集合之外的其它聚类集合中包含特征词k的文本数量，S～i为在第i个聚类集合之外的其它聚类集合中的文本数据词向量的总数；i和k为大于等于1的整数。另一实施例中，所述计算所述文本数据词向量到所述聚类关键词向量的距离包括：根据计算第m个文本数据词向量到第n个聚类关键词向量的距离，其中，cm表示所述第m个文本数据词向量，cn表示所述第n个聚类关键词向量，m及n为大于等于1的整数。另一实施例中，所述根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型包括：确定与所述文本数据词向量相距距离最小的聚类关键词为所述文本数据词向量的聚类类型。另一实施例中，所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词包括：将TF-IDF值最大的前五个特征词作为所述第i个聚类集合更新后的聚类关键词。另一实施例中，所述将TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词之前，还包括：对所述第i个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值进行排序，去除所述设定的聚类关键词中已经包括在所述第i个聚类集合中的特征词以及TF-IDF值小于设定阈值的特征词。另一实施例中，所述设定阈值大于等于10。另一实施例中，所述设定的聚类关键词有多个，所述多个聚类关键词之间具有语义上的互斥关系。本专利技术实施例提供的一种面向图书市场书名的短文本聚类方法，通过对文本数据及设定的聚类关键词进行词向量化，计算文本数据词向量到所述聚类关键词向量的距离，根据根据每个文本数据词向量到所述聚类关键词向量的距离确定所述文本数据词向量的聚类类型，根据所述文本数据的聚类类型将所述文本数据词向量划分到对应的聚类集合；然后计算每个聚类集合中的所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值，确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。采用本专利技术实施例提供的短文本聚类方法，根据用户需求提前设定所述聚类关键词的数量及内容的初始值，并使用改进的TF-IDF算法，体现出特征词在不同聚类中的重要性，能够更加准确地确定文本数据词向量的聚类类型，使聚类结果能够更接近用户的实际需求。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图做一简单地介绍，显而易见地，下面描述中的附图是本专利技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动性的前提下，还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种面向图书市场书名的短文本聚类方法的流程示意图。图2为本专利技术实施例一种面向图书市场书名的短文本聚类方法的另一种流程示意图。具体实施方式为使本专利技术实施例的目的、技术方案和优点更加清楚，下面将结合本发明实施例中的附图，对本专利技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本专利技术一部分实施例，而不是全部的实施例。基于本专利技术中的实施例，本领域普通技术人员在没有作出创造性本文档来自技高网...

【技术保护点】
一种面向图书市场书名的短文本聚类方法，其特征在于，包括：对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及聚类关键词向量；计算文本数据词向量到所述聚类关键词向量的距离；根据每个文本数据词向量到所述聚类关键词向量的距离，确定所述文本数据词向量的聚类类型；根据所述文本数据词向量的聚类类型，将所述文本数据词向量划分到对应的聚类集合；计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合中的出现频率，以及所述聚类集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征词的文件词频‑逆向文件频率TF‑IDF值；确定TF‑IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚类关键词；根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。

【技术特征摘要】
1.一种面向图书市场书名的短文本聚类方法，其特征在于，包括：
对文本数据及设定的聚类关键词进行词向量化，形成文本数据词向量及
聚类关键词向量；
计算文本数据词向量到所述聚类关键词向量的距离；
根据每个文本数据词向量到所述聚类关键词向量的距离，确定所述文本
数据词向量的聚类类型；根据所述文本数据词向量的聚类类型，将所述文本
数据词向量划分到对应的聚类集合；
计算每个聚类集合中的所有文本数据词向量中的特征词在所述聚类集合
中的出现频率，以及所述聚类集合中的所有文本数据词向量中的特征词在所
述聚类集合之外的其它聚类集合中的逆向文件频率，得到所述聚类集合中的
所有文本数据词向量中的特征词的文件词频-逆向文件频率TF-IDF值；
确定TF-IDF值满足设定条件的特征词作为所述聚类集合的更新后的聚
类关键词；
根据所述更新后的聚类关键词确定所述文本数据词向量的聚类类型。
2.根据权利要求1所述的方法，其特征在于，所述计算每个聚类集合中
的所有文本数据词向量中的特征词在所述聚类集合中的词频，以及所述聚类
集合中的所有文本数据词向量中的特征词在所述聚类集合之外的其它聚类集
合中的逆向文件频率，得到所述聚类集合中的所有文本数据词向量中的特征
词的文件词频-逆向文件频率TF-IDF值，包括：
根据TF×IDF得到所述聚类集合中的所有文本数据词向量中的特征词的
文件词频-逆向文件频率TF-IDF值，其中，TF表示所述聚类集合中的所有文
本数据词向量中的特征词在所述聚类集合中的出现频率，IDF表示所述聚类
集合中的所有文本数据词向量中的特征词在所述聚类集合外的其它聚类集合
中的出现频率，nik为第i个聚类集合中包含特征词k的文
本数量，Si为第i个聚类集合中的文本数据词向...

【专利技术属性】
技术研发人员：李欢，孙阳，刘海星，张立，尤树林，
申请(专利权)人：北京航空航天大学，化学工业出版社，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人