【技术实现步骤摘要】
一种用于商品标题聚类的方法及系统
[0001]本专利技术涉及文本聚类
,更具体地说,本专利技术涉及一种用于商品标题聚类的方法及系统。
技术介绍
[0002]围绕企业构建的知识图谱是一种将企业内外的知识、信息、实体等关联起来的知识表示形式,用于帮助企业更好地管理、分析和应用知识。它通过采集、整合和分析企业内外部的数据,将这些数据之间的关系以图谱的形式呈现出来,从而形成一张全面、可视化、可查询的知识网络。围绕企业构建的知识图谱能够包含企业的各种信息,如企业内部的组织架构、业务流程、产品和服务、员工信息等,也包括企业外部的市场信息、竞争对手信息、行业报告等。知识图谱将这些信息与实体之间的关系进行抽象、建模和表达,使得企业能够更好地理解知识之间的联系,更好地识别出知识的价值和潜在的应用场景,从而更好地做出决策。企业竞品分析是指企业对于竞争对手的产品、服务、营销策略等进行全面深入的分析,从而更好地了解自身在市场中的竞争优势和劣势,并制定更加科学有效的市场战略和产品研发策略的过程。在竞品分析中,企业会对竞争对手的产品、服务进行详细 ...
【技术保护点】
【技术特征摘要】
1.一种用于商品标题聚类的方法,其特征在于,包括如下步骤:步骤S1,利用爬虫获取交易网站的商品标题数据;步骤S2,根据商品标题数据,进行加工,获取到其中两个核心片段,一个是核心内容片段,另一个是核心内容补充片段,将两个片段合并得到商品标题的归一化词;步骤S3,根据上述获取的商品标题归一化词,转化成语义向量;步骤S4,将语义向量进行cos距离计算,获取商品之间的相似度指标,利用该结果完成商品的聚类以及相似商品的搜索推荐。2.根据权利要求1所述的一种用于商品标题聚类的方法,其特征在于:在步骤S1中,利用爬虫技术获取交易网站的商品标题数据的实现包括以下:步骤A1,确定目标网站:首先确定要爬取的交易网站,了解目标网站的页面结构和数据格式,确定需要爬取的数据类型和数据字段;步骤A2,分析网页结构:利用浏览器开发者工具,分析目标网站的页面结构和数据格式,确定需要爬取的数据所在的标签和属性;步骤A3,编写爬虫程序:利用Python编写爬虫程序,通过发送HTTP请求获取目标网页的HTML代码,解析HTML代码,提取出需要爬取的数据,并保存到本地文件或数据库中;步骤A4,反爬虫处理:针对网站采取的反爬虫策略,对程序进行处理,设置User
‑
Agent或IP代理,以避免被网站屏蔽;步骤A5,定时更新:由于交易网站的商品信息更新频繁,需要定期运行爬虫程序,获取最新的商品信息。3.根据权利要求1所述的一种用于商品标题聚类的方法,其特征在于:在步骤S2中,获取核心内容片段及核心内容补充片段的步骤包括:步骤S21,对商品标题进行分词;步骤S22,对所有的商品标题分词结果进行词频统计,将其中高频词中标注出停用词,其中停用词包括但不局限于“的”,“和”以及“与”其中的一种、两种或者三种;步骤S23,获取步骤S23所有分词结果的词频排序,保留商品标题中最高频非停用词作为核心内容片段;步骤S24,将分词结果中最后一个非停用词作为核心内容补充片段;步骤S25,如果核心内容片段与核心内容补充片段为同一词,则选取次最高频词作为核心内容片段;步骤S26,合并词语,将核心内容片段和核心内容补充片段采用字符串拼接的方式合并,形成一个新的字符串,并将这个新的字符串作为商品标题归一化词。4.根据权利要求1所述的一种用于商品标题聚类的方法,其特征在于:步骤S3,根据上述获取的商品标题归一化词,转化成语义向量,转化过程如下:步骤B1,定义语义模型:选择Word2Vec模型作为定义的语义模型;步骤B2,加载预训练模型:训练一个Word2Vec模型,并加载模型文件;步骤B3,获取归一化词的向量表示:对于每个商品标题归一化词,从Word2Vec模型中获取其对应的向量表示,该向量表示为一个N维的实数向量;...
【专利技术属性】
技术研发人员:赵鹏,张钊,庄福振,徐勇军,
申请(专利权)人:中科厦门数据智能研究院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。