用于电商平台的基于主题相关的推荐方法技术

技术编号:13829729 阅读:28 留言:0更新日期:2016-10-13 16:10
本发明专利技术提出了一种用于电商平台的基于主题相关的推荐方法,包括:爬取网络上的多个文章,设置主题分类参数,训练生成主题分类模型;获取电商平台中的原始商品订单数据,生成主题‑商品的倒排索引数据库;接收用户输入的搜索关键词,计算搜索关键词与分类主题的相关度,在主题‑商品的倒排索引数据库中查找与选取分类主题相关的所有商品;计算所选商品的相关度,根据预设查询条件对剩余商品进行排序,生成查询推荐结果,反馈给用户。本发明专利技术为用户输入的关键词查找推荐最匹配的商品名称,可以帮助用户找到真正所需要产品,特别是在用户描述不精确的情况下,同样可以推荐给用户所需的产品,推荐产品与用户需求相关度高。

【技术实现步骤摘要】

本专利技术涉及互联网
,特别涉及一种用于电商平台的基于主题相关的推荐方法
技术介绍
现有的针对电商平台的关键词匹配及筛选,主要采用以下两种方式:(1)访客找回(Retargeting):基于关键字的精确匹配,只能找到用户直接相关的产品。在用户描述不准确的情况下有时无法帮助用户找到最需要的产品。(2)协同过滤(Collaborative Filtering):根据用户所在的用户群做推荐目标用户可能关心产品。用户群很小的时候,或者用户数据不完备的时候,推荐的产品会让用户满意度很低。被推荐的产品取决于其所在分类人群,不能反映用户自己真正的诉求。
技术实现思路
本专利技术的目的旨在至少解决所述技术缺陷之一。为此,本专利技术的目的在于提出一种用于电商平台的基于主题相关的推荐方法,为用户输入的关键词查找推荐最匹配的商品名称,可以帮助用户找到真正所需要产品,特别是在用户描述不精确的情况下,同样可以推荐给用户所需的产品,推荐产品与用户需求相关度高。为了实现上述目的,本专利技术的实施例提供一种用于电商平台的基于主题相关的推荐方法,包括如下步骤:步骤S1,爬取网络上的多个文章,对所述文章进行词频统计并设置主题分类参数,训练生成主题分类模型;步骤S2,获取电商平台中的原始商品订单数据,将所述原始商品订单数据加载至所述主题分类模型中,生成主题-商品的倒排索引数据库;步骤S3,接收用户输入的搜索关键词,计算所述搜索关键词与分类主题的相关度,选取相关度位于前N位的分类主题,在所述主题-商品的倒排索引数据库中查找与选取分类主
题相关的所有商品;步骤S4,计算所选商品的相关度,在过滤掉相关度低于阈值的商品后,根据预设查询条件对剩余的商品进行排序,生成查询推荐结果,反馈给用户。进一步,在所述步骤S1中,对爬取到的多个文章,采用正则表达式进行字符清理和网页标签去除,将去除后的文章进行转码并打上序号。进一步,在所述步骤S1中,设置主题参数包括:主题个数和最大迭代数,采用EM迭代算法,对转码后的文章的主题参数进行迭代训练,生成参数文件,对所述参数文件进行标准化归一化,形成所述主题分类模型。进一步,在所述步骤S2中,将所述原始商品订单数据进行数据预处理,对预处理后的原始商品订单数据中的产品名称,应用基于词典的正向最大匹配算法,进行切分,去除预设基本词典之外的词。进一步,在所述步骤S2中,将所述原始商品订单数据加载至所述主题分类度模型,应用EM迭代算法迭代计算切分后的商品分词与各个分类主题的相关度;计算相关度相对阈值,对每个商品选取相关度高分类主题的模型;遍历所有产品,将商品和主题模型进行倒排索引,形成主题-商品的倒排索引数据库。进一步,在所述步骤S3中,采用EM迭代算法计算所述搜索关键词与分类主题的相关度,根据所有主题的相关度的数值,计算其平均值和方差,过滤掉主题相关度数值低于平均值减1.645倍的方差的主题,选取相关度位于前N位的主题。进一步,在所述步骤S4中,所述预设查询条件为:商品的价格、相关度、热度的查询。根据本专利技术实施例的用于电商平台的基于主题相关的推荐方法,通过爬取网络上的文章,训练生成主题分类模型,将电商平台的商品数据加载到该主题分类模型上,实现为用户输入的关键词查找推荐最匹配的商品名称,可以帮助用户找到真正所需要产品,特别是在用户描述不精确的情况下,同样可以推荐给用户所需的产品,推荐产品与用户需求相关度高。本专利技术可以推荐基于主题相关的产品,帮助用户发现除直接需求之外的潜在需求,充分发挥电商平台的长尾效应。本专利技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。附图说明本专利技术的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本专利技术一个实施例的用于电商平台的基于主题相关的推荐方法的流程图;图2为根据本专利技术另一个实施例的用于电商平台的基于主题相关的推荐方法的流程图。具体实施方式下面详细描述本专利技术的实施例,实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本专利技术,而不能理解为对本专利技术的限制。如图1和图2所示,本专利技术实施例的用于电商平台的基于主题相关的推荐方法,包括如下步骤:步骤S1,爬取网络上的多个文章,对文章进行词频统计并设置主题分类参数,训练生成主题分类模型。具体地,利用网络爬虫工具进行在线搜集各类文章,对爬取到的多个文章,采用正则表达式进行字符清理和网页标签去除,例如<div><br>)和特殊字符(例如㊣㈱@の%),将去除后的文章进行转码并打上序号。在本专利技术的一个实施例中,输入每行一篇文章,对文章转码并打上序号。此外,对每篇文章进行词频统计,计算每个词在文档中出现的总频率、每个词出现在文档的数量,生成高频词列表。根据设定值判断是否加入词典,判断依据是TF(term frequency)和DF(document frequency)。优选的,TF和DF的门限预设值是2。整理排序后生成基本词典和共现词典。然后,设置主题参数包括:主题个数和最大迭代数。主题个数和最大迭代数都是根据经验主观设定的。主题个数太小易欠拟合,太大易过拟合。所谓过拟合,是这样一种现象:一个假设在训练数据上能够获得比其他假设更好的拟合,但是在测试数据集上却不能很好的拟合。确定主题个数没有好的办法,只能用交叉验证。采用EM迭代算法,对转码后的文章的主题参数进行迭代训练,生成参数文件,对参数文件进行标准化归一化,形成主题分类模型。具体地,采用EM算法迭代求解近似极大似然。E指的是在当前参数的情况下隐变量的后验概率,M指的是计算的隐含变量的后验概率,得到新的参数值。两步迭代进行直到收敛。EM迭代算法试图找到一系列的估计参数,使得训练数据的对数似然函数的期望是不断
增加的,并最后趋于稳定收敛。对迭代结果进行整理工作,将每个主题的支撑词按照p(w|z)进行降序排列。其中,支撑词是指一个主题下面大量出现的词。根据生成参数文件,对其进行标准化归一化,形成可用的主题分类模型。步骤S2,获取电商平台中的原始商品订单数据,将原始商品订单数据加载至主题分类模型中,生成主题-商品的倒排索引数据库。将原始商品订单数据进行数据预处理,包括应用字符清理规则,去除特殊字符。然后对预处理后的原始商品订单数据中的产品名称,应用基于词典的正向最大匹配算法,进行切分,去除步骤S1中的基本词典之外的词。在本专利技术的一个实施例中,切分的方法采用正向最大匹配算法,即从左到右将待分词文本中的几个连续字符与词表匹配,如果匹配上,则切分出一个词,预设基本词典是在训练主题模型时得出的。将原始商品订单数据加载至主题分类度模型,应用EM迭代算法迭代计算切分后的商品分词与各个分类主题的相关度,计算相关度相对阈值,对每个商品选取相关度高分类主题的模型。根据产品和主题的相关程度,进行降序排列,形成“商品-主题”数组放在内存或写在临时文件。遍历所有产品,将商品和主题模型进行倒排索引,形成主题-商品的倒排索引数据库。步骤S3,接收用户输入的搜索关键词,计算搜索关键词与分类主题的相关度,选取本文档来自技高网
...

【技术保护点】
一种用于电商平台的基于主题相关的推荐方法,其特征在于,包括如下步骤:步骤S1,爬取网络上的多个文章,对所述文章进行词频统计并设置主题分类参数,训练生成主题分类模型;步骤S2,获取电商平台中的原始商品订单数据,将所述原始商品订单数据加载至所述主题分类模型中,生成主题‑商品的倒排索引数据库;步骤S3,接收用户输入的搜索关键词,计算所述搜索关键词与分类主题的相关度,选取相关度位于前N位的分类主题,在所述主题‑商品的倒排索引数据库中查找与选取分类主题相关的所有商品;步骤S4,计算所选商品的相关度,在过滤掉相关度低于阈值的商品后,根据预设查询条件对剩余的商品进行排序,生成查询推荐结果,反馈给用户。

【技术特征摘要】
1.一种用于电商平台的基于主题相关的推荐方法,其特征在于,包括如下步骤:步骤S1,爬取网络上的多个文章,对所述文章进行词频统计并设置主题分类参数,训练生成主题分类模型;步骤S2,获取电商平台中的原始商品订单数据,将所述原始商品订单数据加载至所述主题分类模型中,生成主题-商品的倒排索引数据库;步骤S3,接收用户输入的搜索关键词,计算所述搜索关键词与分类主题的相关度,选取相关度位于前N位的分类主题,在所述主题-商品的倒排索引数据库中查找与选取分类主题相关的所有商品;步骤S4,计算所选商品的相关度,在过滤掉相关度低于阈值的商品后,根据预设查询条件对剩余的商品进行排序,生成查询推荐结果,反馈给用户。2.如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述步骤S1中,对爬取到的多个文章,采用正则表达式进行字符清理和网页标签去除,将去除后的文章进行转码并打上序号。3.如权利要求1所述的用于电商平台的基于主题相关的推荐方法,其特征在于,在所述步骤S1中,设置主题参数包括:主题个数和最大迭代数,采用EM迭代算法,对转码后的文章的主题参数进行迭代训练,生成参数文件,对所述参数文件进行标准化归一化,...

【专利技术属性】
技术研发人员:杨振
申请(专利权)人:北京京拍档科技有限公司
类型:发明
国别省市:北京;11

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1