一种基于采购信息的精准个性化推荐方法技术

技术编号:27419371 阅读:45 留言:0更新日期:2021-02-21 14:37
本发明专利技术提供了一种基于采购信息的精准个性化推荐方法。所述一种基于采购信息的精准个性化推荐方法包括如下步骤:获取供应商、采购商的信息,并将数据存储;对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;将采购信息推荐给与之匹配的采购商。本发明专利技术提出了一种全新的点云配准方法体系,能够将采购信息和供应商精准个性化匹配,将具有个性化推荐特征的采购信息推荐给供应商。商。商。

【技术实现步骤摘要】
一种基于采购信息的精准个性化推荐方法


[0001]本专利技术涉及计算机
,特别涉及一种基于采购信息的精准个性化推荐方法。

技术介绍

[0002]近年来,互联网信息指数级增长,推荐系统能够帮助用户发现感兴趣的物品,目前被广泛应用于电子商务、搜索引擎、视频音乐网站、社交网络等。想上网购物,推荐系统会帮你挑选满意的商品;想了解资讯,推荐系统会为你准备感兴趣的新闻;想学习充电,推荐系统会为你提供适合你的课程;想消遣放松,推荐系统会为你奉上让你欲罢不能的短视频;想闭目养神,推荐系统会给你播放应景的音乐,可以说,推荐系统从来没有像现在这样影响着人们的生活。
[0003]随着互联网技术的发展,各供应商可以在网上查询到的采购信息的种类越来越多、数据量也越来越大,如全国招标采购信息平台、政府采购信息网等,每天发布数以万计的采购信息。如何在如此海量的数据中,需解决将信息繁杂、给每条采购信息准确匹配到精准的供应商的技术问题。

技术实现思路

[0004]本专利技术提供了一种基于采购信息的精准个性化推荐方法,其目的是为了解决
技术介绍
中在海量的数据中,将信息繁杂、给采购信息准确匹配到精准的供应商的技术问题。
[0005]为了达到上述目的,本专利技术提供的一种基于采购信息的精准个性化推荐方法,步骤S1、获取供应商、采购商的信息,并将数据存储;
[0006]步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;
[0007]步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;
[0008]步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。
[0009]优选地,所述步骤S1中获取供应商、采购商的信息包括:步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。
[0010]优选地,所述步骤S1中获取供应商、采购商的信息还包括:步骤S12、从现有系统数据中获得供应商、采购商的信息,具体包括如下步骤:
[0011]步骤S121、供应商、采购商进行注册成为系统用户;
[0012]步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。
[0013]优选地,所述步骤S11、从网上采集信息具体包括如下步骤:
[0014]步骤S111、编写具有绕过反爬虫能力的爬虫程序;
[0015]步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。
[0016]优选地,所述步骤S112具体包括如下步骤:
[0017]步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;
[0018]步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;
[0019]步骤S1123、使用Http协议完成页面的抓取;
[0020]步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;
[0021]步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;
[0022]步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;
[0023]步骤S1127、根据更新后的URL进行爬取,判断是否达到用户设定的停止爬取条件,若达到就停止,没有达到就一直循环执行爬取。
[0024]优选地,所述步骤S2中数据预处理为采用数据清洗、中文分词、词性标注、停用词过滤,具体包括如下步骤:
[0025]步骤S21、数据清洗:初步过滤获取的信息中的无用信息,保留有用信息,最终留下的是只包含特征词的文本集合;
[0026]步骤S22、进行分词和词性标注:将满足指定词性的词作为候选词;
[0027]步骤S23、分别计算每个词的TF-IDF值;
[0028]步骤S24、根据每个词的TF-IDF值降序排列,采集候选标签,输出指定个数的可能的关键词。
[0029]优选地,所述步骤S3中标签抽取具体为通过包括基于词频、基于支持向量机的方法进行标签抽取,包括如下步骤:
[0030]步骤S31、获得用户属性数据库及候选物品集合;
[0031]步骤S32、通过特征向量对用户属性数据库进行特征提取,从候选物品集合中获得初始特征物品相关推荐;
[0032]步骤S33、结合候选物品集合过滤、排名及推荐解释选择的特征,确定最终推荐结果。
[0033]优选地,所述步骤S3中基于协同过滤推荐包括基于供应商的协同过滤算法推荐及基于采购信息的协同过滤算法推荐,其中:
[0034]所述基于供应商的协同过滤算法推荐具体为:当新增一个供应商时,将步骤S1中数据存储中与它同行业、并且经营范围相似的供应商感兴趣的数据,同时推荐给该供应商;
[0035]基于采购信息的协同过滤算法推荐具体为:根据供应商以前感兴趣的采购数据,将步骤S1中数据存储中与其以前感兴趣的采购数据有着相同标签的数据,同时推荐给该供应商。
[0036]优选地,所述步骤S3中基于内容推荐具体为根据供应商历史信息构成供应商偏好文档,计算推荐采购信息与供应商偏好文档的相似度,将最相似的采购信息推荐给该供应
商。
[0037]优选地,所述步骤S3中选取最符合要求的推荐算法具体为:
[0038]当步骤S1中数据存储中数据量不大时,可使用单一的算法,可得到对应的供应商数据匹配;
[0039]当步骤S1中数据存储中数据量比较大时,则先基于供应商的协同过滤算法产生一种粗糙的推荐结果,再使用基于采购信息的协同过滤算法剔除进一步完善,最后使用基于内容的协同过滤算法在前面推荐结果的基础上进一步做出更精确的推荐。
[0040]采用本专利技术能达到的技术效果为:本专利技术通过数字运算技术为供应商匹配相关的采购信息,并将采购信息快速准确的推荐给供应商。
附图说明
[0041]图1为本专利技术的一种基于采购信息的精准个性化推荐方法的总体流程图;
[0042]图2为本专利技术的一种基于采购信息的精准个性化推荐方法的从网上采集数据的流程图;
[0043]图3为本专利技术的一种基于采购信息的精准个性化推荐方法的词性标注流程图;
[0044]图4为本专利技术的一种基于采购信息的精准个性化推荐方法的标签抽取的数据推荐流程图;
[0045]图5为本专利技术的一种基于采购信息的精准个性化推荐方法的基于供应商的协同过滤算法图;...

【技术保护点】

【技术特征摘要】
1.一种基于采购信息的精准个性化推荐方法,其特征在于,包括如下步骤:步骤S1、获取供应商、采购商的信息,并将数据存储;步骤S2、对获取的信息进行数据预处理,采集满足指定词性的词,并基于采集的词采集候选标签;步骤S3、从基于协同过滤推荐、基于内容推荐、组合推荐的方法中选取最符合要求的推荐算法,循环遍历采购的候选标签,对候选标签进行标签抽取,得出标签集,挑选出排名居前位的供应商;步骤S4、循环步骤S3,直到所有采购的候选标签都推荐给与之匹配的采购商。2.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S1中获取供应商、采购商的信息包括:步骤S11、从网上采集信息;具体为:根据给定的初始URL种子集合、系统设定的参数爬取深度、每层下载的URL数量,遵循广度优先遍历循环完成网页抓取任务直到符合爬虫结束任务条件。3.根据权利要求1所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S1中获取供应商、采购商的信息还包括:步骤S12、从现有系统数据中获得供应商、采购商的信息,具体包括如下步骤:步骤S121、供应商、采购商进行注册成为系统用户;步骤S122、已注册供应商、采购商,对其对应的基本信息进行补充,包括采购商发布的采购信息,供应商的产品信息,采购商及供应商的特性数据、偏好、分类的信息。4.根据权利要求2所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S11、从网上采集信息具体包括如下步骤:步骤S111、编写具有绕过反爬虫能力的爬虫程序;步骤S112、通过爬虫程序从网上采集供应商信息、采购信息数据。5.根据权利要求4所述的一种基于采购信息的精准个性化推荐方法,其特征在于,所述步骤S112具体包括如下步骤:步骤S1121、在种子集合中选择要搜索的种子文件,分布式网络爬虫从种子文件中选择URL并且开始爬行工作;步骤S1122、网络爬虫程序获得URL后,根据URL与相关的WEB服务器建立Http链接,如果链接成功则进入步骤S1123,不成功就标记该链接;步骤S1123、使用Http协议完成页面的抓取;步骤S1124、对抓取下来的页面进行全面的解析,提取出有效的关键信息;步骤S1125、若解析的网页中包含重复URL链接,则将这些重复的URL进行过滤处理;步骤S1126、将过滤后的URL链接继续保存到URL链接库,为下一阶段的网络爬虫,爬取网页做好准备;步骤S1127、根据更新后的URL进行爬取,判断...

【专利技术属性】
技术研发人员:张牡王贺春苑洪亮肖和龙白文杰张熙郑翠梅
申请(专利权)人:长沙军民先进技术研究有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1