一种用于商品标题聚类的方法及系统技术方案

技术编号：38468255 阅读：34 留言：0更新日期：2023-08-11 14:45

本发明专利技术公开了一种用于商品标题聚类的方法及系统，具体涉及文本聚类技术领域，用于解决现有公开技术通常是针对通用数据的技术方案，也有方案是针对这类数据的，但是由于应用场景不同，这类方案并不完全适用的问题，其方法包括爬取数据、商品标题归一化、语义向量转换、相似度分析、聚类分析以及相似商品的搜索推荐，系统由硬件和软件构成，软件包括爬虫模块、加工模块、语义向量模块、相似度计算模块、聚类模块以及推荐模块，硬件包括CPU、内存条、存储件以及GPU；是通过对网上商品交易信息数据进行竞品分析，获取商品标题的相似度并对商品标题的相似度进行聚类分析以及搜索推荐，从而提高聚类和搜索推荐的准确度。而提高聚类和搜索推荐的准确度。而提高聚类和搜索推荐的准确度。

全部详细技术资料下载

【技术实现步骤摘要】
一种用于商品标题聚类的方法及系统

[0001]本专利技术涉及文本聚类
，更具体地说，本专利技术涉及一种用于商品标题聚类的方法及系统。

技术介绍

[0002]围绕企业构建的知识图谱是一种将企业内外的知识、信息、实体等关联起来的知识表示形式，用于帮助企业更好地管理、分析和应用知识。它通过采集、整合和分析企业内外部的数据，将这些数据之间的关系以图谱的形式呈现出来，从而形成一张全面、可视化、可查询的知识网络。围绕企业构建的知识图谱能够包含企业的各种信息，如企业内部的组织架构、业务流程、产品和服务、员工信息等，也包括企业外部的市场信息、竞争对手信息、行业报告等。知识图谱将这些信息与实体之间的关系进行抽象、建模和表达，使得企业能够更好地理解知识之间的联系，更好地识别出知识的价值和潜在的应用场景，从而更好地做出决策。企业竞品分析是指企业对于竞争对手的产品、服务、营销策略等进行全面深入的分析，从而更好地了解自身在市场中的竞争优势和劣势，并制定更加科学有效的市场战略和产品研发策略的过程。在竞品分析中，企业会对竞争对手的产品、服务进行详细...

【技术保护点】

【技术特征摘要】
1.一种用于商品标题聚类的方法，其特征在于，包括如下步骤：步骤S1，利用爬虫获取交易网站的商品标题数据；步骤S2，根据商品标题数据，进行加工，获取到其中两个核心片段，一个是核心内容片段，另一个是核心内容补充片段，将两个片段合并得到商品标题的归一化词；步骤S3，根据上述获取的商品标题归一化词，转化成语义向量；步骤S4，将语义向量进行cos距离计算，获取商品之间的相似度指标，利用该结果完成商品的聚类以及相似商品的搜索推荐。2.根据权利要求1所述的一种用于商品标题聚类的方法，其特征在于：在步骤S1中，利用爬虫技术获取交易网站的商品标题数据的实现包括以下：步骤A1，确定目标网站：首先确定要爬取的交易网站，了解目标网站的页面结构和数据格式，确定需要爬取的数据类型和数据字段；步骤A2，分析网页结构：利用浏览器开发者工具，分析目标网站的页面结构和数据格式，确定需要爬取的数据所在的标签和属性；步骤A3，编写爬虫程序：利用Python编写爬虫程序，通过发送HTTP请求获取目标网页的HTML代码，解析HTML代码，提取出需要爬取的数据，并保存到本地文件或数据库中；步骤A4，反爬虫处理：针对网站采取的反爬虫策略，对程序进行处理，设置User
‑
Agent或IP代理，以避免被网站屏蔽；步骤A5，定时更新：由于交易网站的商品信息更新频繁，需要定期运行爬虫程序，获取最新的商品信息。3.根据权利要求1所述的一种用于商品标题聚类的方法，其特征在于：在步骤S2中，获取核心内容片段及核心内容补充片段的步骤包括：步骤S21，对商品标题进行分词；步骤S22，对所有的商品标题分词结果进行词频统计，将其中高频词中标注出停用词，其中停用词包括但不局限于“的”，“和”以及“与”其中的一种、两种或者三种；步骤S23，获取步骤S23所有分词结果的词频排序，保留商品标题中最高频非停用词作为核心内容片段；步骤S24，将分词结果中最后一个非停用词作为核心内容补充片段；步骤S25，如果核心内容片段与核心内容补充片段为同一词，则选取次最高频词作为核心内容片段；步骤S26，合并词语，将核心内容片段和核心内容补充片段采用字符串拼接的方式合并，形成一个新的字符串，并将这个新的字符串作为商品标题归一化词。4.根据权利要求1所述的一种用于商品标题聚类的方法，其特征在于：步骤S3，根据上述获取的商品标题归一化词，转化成语义向量，转化过程如下：步骤B1，定义语义模型：选择Word2Vec模型作为定义的语义模型；步骤B2，加载预训练模型：训练一个Word2Vec模型，并加载模型文件；步骤B3，获取归一化词的向量表示：对于每个商品标题归一化词，从Word2Vec模型中获取其对应的向量表示，该向量表示为一个N维的实数向量；...

【专利技术属性】
技术研发人员：赵鹏，张钊，庄福振，徐勇军，
申请(专利权)人：中科厦门数据智能研究院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人