一种数据聚类及B2B平台客户偏好获取方法、系统技术方案

技术编号:29405549 阅读:25 留言:0更新日期:2021-07-23 22:44
本发明专利技术属于数据聚类技术领域,公开了一种数据聚类及B2B平台客户偏好获取方法、系统,数据聚类及B2B平台客户偏好获取系统包括:客户信息采集模块、主控模块、客户需求提取模块、客户分类模块、聚类分析模块、商品分类推荐模块、客户评价模块、显示模块。本发明专利技术通过多平台的客户数据采集、处理、分析确定用户需求,同时基于相关数据进行客户的分类,并结合基于聚类的客户偏好数据获取,进行商品分类推荐,提高了推荐的准确度以及客户体验。同时本发明专利技术在进行数据获取时,进行了错误数据的过滤以及处理,提高了数据处理的效率,过滤低质量客户数据,也提高了聚类分析以及偏好获取的准确度。

【技术实现步骤摘要】
一种数据聚类及B2B平台客户偏好获取方法、系统
本专利技术属于数据聚类
,尤其涉及一种数据聚类及B2B平台客户偏好获取方法、系统方法。
技术介绍
所谓数据聚类是指根据数据的内在性质将数据分成一些聚合类,每一聚合类中的元素尽可能具有相同的特性,不同聚合类之间的特性差别尽可能大。聚类分析的目的是分析数据是否属于各个独立的分组,使一组中的成员彼此相似,而与其他组中的成员不同。它对一个数据对象的集合进行分析,但与分类分析不同的是,所划分的类是未知的,因此,聚类分析也称为无指导或无监督的(Unsupervised)学习。聚类分析的一般方法是将数据对象分组为多个类或簇(Cluster),在同一簇中的对象之间具有较高的相似度,而不同簇中的对象差异较大。由于聚类分析的上述特征,在许多应用中,对数据集进行了聚类分析后,可将一个簇中的各数据对象作为一个整体对待。B2B平台是电子商务的一种模式,是英文Business-to-Business的缩写,即商业对商业,或者说是企业间的电子商务,即企业与企业之间通过互联网进行产品、服务及信息的交换。它将企业内部网,通过本文档来自技高网...

【技术保护点】
1.一种数据聚类及B2B平台客户偏好获取方法,其特征在于,所述数据聚类及B2B平台客户偏好获取方法包括:/n步骤一,通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他相关信息数据:根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列;中心节点的采集任务队列到达阈值时,启动子节点服务器的信息采集服务,中心节点向子节点分配采集任务并初始化其任务控制组件;子节点进行数据采集,根据任务的账号信息选择对应的B2B平台采集组件进行数据采集;/n步骤二,根据任务节点的任务数量和采集速率定期进行节点负载测试,对任务负载比较高的节点将部分采集任务回收到中心节点,再由中心节点动态分配...

【技术特征摘要】
1.一种数据聚类及B2B平台客户偏好获取方法,其特征在于,所述数据聚类及B2B平台客户偏好获取方法包括:
步骤一,通过客户信息采集模块采集B2B平台客户属性、行为、需求及其他相关信息数据:根据来自不同B2B平台的初始种子账号集初始化B2B平台的数据采集任务队列;中心节点的采集任务队列到达阈值时,启动子节点服务器的信息采集服务,中心节点向子节点分配采集任务并初始化其任务控制组件;子节点进行数据采集,根据任务的账号信息选择对应的B2B平台采集组件进行数据采集;
步骤二,根据任务节点的任务数量和采集速率定期进行节点负载测试,对任务负载比较高的节点将部分采集任务回收到中心节点,再由中心节点动态分配给其他任务节点,进行客户属性、行为、需求及其他相关信息数据的采集;对采集的客户属性、行为、需求及其他相关信息数据进行质量评估,过滤低质量的客户属性、行为、需求及其他相关信息数据,得到高质量的客户属性、行为、需求及其他相关信息数据;
步骤三,主控模块通过客户需求提取模块利用提取程序基于采集的客户属性、行为、需求及其他相关信息数据提取客户需求信息:从采集的客户属性、行为、需求及其他相关信息数据中获取客户需求信息;根据客户需求信息在预先设定的规则数据库中提取与客户需求信息对应的提取规则,并根据提取规则从采集的客户属性、行为、需求及其他相关信息数据中提取位置信息;过滤错误数据以及相同数据,将位置信息与公共字段合并为有效数据,即为最终的客户需求信息;
步骤四,通过客户分类模块利用分类程序根据客户需求对客户进行细化分类;通过聚类分析模块利用聚类算法对客户信息进行聚类分析,得到客户偏好;通过商品分类推荐模块利用分类推荐程序对B2B平台商品进行分类推荐:获取不同来源的原始商品数据;对原始商品数据进行统一化预处理,得到预处理后的商品数据;收集B2B电子商务平台中已处理过的商品数据,形成初始的商品实例数据库,所述商品实例数据库中每一条记录应包括基本的商品编号、商品标题、商品描述信息、商品分类代码;
步骤五,对商品实例数据库中存在的一个商品对应多个分类代码的情况进行处理,对应几个分类代码就拆分成几条记录,使每一条记录中每个商品只对应一个分类代码;对商品实例数据库中的商品标题和描述信息进行分词、抽词、频次统计和位置加权处理,形成类目特征词串;采用支持度、置信度来衡量类目特征词串与分类代码之间的对应关系;将支持度、置信度达到一定阈值的记录保留,生成商品分类知识库;基于商品分类知识库以及客户需求信息、客户分类结果、客户偏好数据进行B2B平台商品的分类推荐;
步骤六,通过客户评价模块利用评价程序对B2B平台进行客户评价;通过显示模块利用显示器显示客户信息、客户需求、客户分类结果、聚类分析结果、商品分类推荐信息、客户评价信息。


2.如权利要求1所述数据聚类及B2B平台客户偏好获取方法,其特征在于,步骤二中,所述对采集的客户数据进行质量评估,过滤低质量客户数据包括:
(1)根据客户简介信息计算用户信息能量,每个特征项赋予不同的信息能量权值,计算整体客户信息能量;



其中,wk表示不同信息特征项对应的能量权值;f表示与单个特征信息vk缺失率相关的评估函数,是一个指示函数,其中信息缺失时为0,存在时为1;
(2)根据客户的关系网络信息求得用户关系能量,综合客户双向关系计算用户关系网络的能量:



其中,we表示与客户关系相关的权值,客户关系出入度分别为||ein||和||eout||,ein和eout分别表示客户与关注者和关注的人构成的边的集合;
(3)根据步骤(1)与步骤(2)得到的能量模型,得到客户质量评估值,保留达到能量阈值的客户信息:
Ei(v)+Ee(v)≥Ethreshold;
其中,Ethreshold表示根据部分训练客户数据得到的信息能量阈值。


3.如权利要求1所述数据聚类及B2B平台客户偏好获取方法,其特征在于,步骤三中,所述过滤错误数据以及相同数据包括:
获取错误数据和相同数据信息;对错误数据和相同数据进行识别,并获取错误数据和相同数据的特征文本值;当在预设错误数据和相同数据库中找到与特征文本值相同的已存储特征文本值时,检测已存储特征文本值是否被标记为已处理;若是,则将特征文本值对应的错误数据和相同数据信息过滤。


4.如权利要求1所述数据聚类及B2B平台客户偏好...

【专利技术属性】
技术研发人员:姜伟
申请(专利权)人:杭州云搜网络技术有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1