当前位置: 首页 > 专利查询>清华大学专利>正文

商品标签生成方法及装置制造方法及图纸

技术编号:17780865 阅读:33 留言:0更新日期:2018-04-22 10:00
本发明专利技术提供一种商品标签生成方法及装置,该方法包括:服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;商品集合包括至少两个商品;服务器根据用户的行为序列,获取每个商品的邻近对象;邻近对象包括:在用户的行为序列中,且与商品出现的时间间隔小于预设的时间间隔阈值的商品;服务器确定商品集合内部分商品的初始标签集;服务器根据文本特征、邻近对象及初始标签集,采用异源标签主题模型,为商品集合内的商品生成标签。本发明专利技术实施例提供的标签生成方法,不需要用户参与商品标签的分配,成本较低,适用性更广;另外同时利用了商品的文本描述信息以及提取自用户序列的商品邻近对象,准确率较高。

【技术实现步骤摘要】
商品标签生成方法及装置
本专利技术涉及互联网
,尤其涉及一种商品标签生成方法及装置。
技术介绍
随着互联网技术的不断发展,越来越多的用户通过互联网进行相关活动,如浏览新闻、购物等。为了帮助用户对商品进行更细致的分类和整理,也为了方便用户更快地定位感兴趣的商品,很多互联网应用中为商品分配标签,细化对商品的描述和分类,同时服务器也可以根据标签向用户推荐相应的商品。其中,标签是指用来描述商品相关属性的短语。目前,提取标签的方法,一般采用如下两种方式:人工分配商品标签,或服务器通过分析商品的相关描述信息,提取合适的标签;其中,商品相关描述信息例如包括商品的文字描述、用户对于商品的评论等文本信息。上述第一种方式,由于互联网上的新商品层出不穷,仅依赖少量人力人工分配商品标签存在效率低的问题;第二种方式,仅根据商品的相关描述信息,存在准确度低、不全面的问题。
技术实现思路
本专利技术提供一种商品标签生成方法及装置,以实现准确自动生成商品标签的目的。第一方面,本专利技术实例提供一种商品标签生成方法,包括:服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。第二方面,本专利技术实例提供一种商品标签生成装置,包括:获取模块,用于根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;所述获取模块,还用于根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;标签确定模块,用于确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;处理模块,用于根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。本专利技术实例提供的商品标签生成方法及装置,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定部分商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低,适用范围广。另外,在异源标签主题模型中,商品的文本特征信息和邻近对象信息被同时用于生成商品标签,从而与仅基于商品文本描述信息生成标签的传统方法相比,本专利技术实例提供的商品标签生成方法生成的标签准确度和召回率都比较高。附图说明图1为本专利技术商品标签生成方法一实施例的流程图;图2为本专利技术商品标签生成方法所适用的异源标签主题模型模拟商品标签的生成过程的概率图;图3为本专利技术标签生成方法一实施例的提取商品邻近对象示意图;图4为本专利技术商品标签生成装置一实施例的结构图。具体实施方式图1为本专利技术标签生成方法一实施例的流程图。本实施例的执行主体为服务器,适用于电子商务情境下,需要为商品自动生成标签的场景。具体的,本实施例包括如下步骤:101、服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;本步骤中,电子商务平台中的服务器,即互联网服务器,搜集商品的文本描述信息,经过分词、去除高频词和停用词等操作,将商品的文本描述信息中的每一个单词视作一个文本特征,将该单词在文本描述出现频次视作对应该文本特征对应的取值,可以以向量形式存储;所述商品为电子商务平台上交易的一般消费品或服务。假设所有的文本特征都属于集合V,V={v1,v2,…,v|V|},为商品i所对应的文本特征的向量表示,其中,表示商品i的文本描述中,文本特征vj出现了次。特别的,对于的文本特征称为商品i的文本特征,同时定义也就是商品i的文本特征的个数。102、所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;本步骤中,所述服务器根据用户的行为序列提取所述商品的邻近对象及相应频次,并以向量形式存储。所述用户为电子商务平台上的一般消费者,所述行为序列为所述用户在电子商务平台上进行交互时的记录,包括所述用户在浏览、下载、搜索、购买等行为记录,所述邻近对象为针对某一特定商品,在所述用户的行为序列中与该商品在较短的时间间隔内先后或同时参与交互的其他商品,即在所述用户的行为序列中,且与该商品出现的时间间隔小于预设的时间间隔阈值的商品。具体的,所述服务器通过以下方式提取商品的邻近对象:遍历所有用户的行为序列,预设的时间间隔阈值内同时或先后出现在同一用户行为序列的商品互为邻近对象。例如,对于一个具体的商品A和具体的用户U,如果用户U在与商品A交互的时,在时间间隔阈值内,也与商品B发生了交互,则商品B为商品A的邻近对象。商品B作为商品A的邻近对象的发生频次也相应增加1次;为统计商品A的所有邻近对象,需要遍历所有用户的行为序列。假设所有的商品都属于集合D,D={d1,d2,…,d|D|},为商品i所对应的邻近对象的向量表示,其中,表示在商品的所有邻近对象中,特定商品dj出现了次。特别的,对于的邻近对象称为商品i的邻近对象,同时定义也就是商品i的邻近对象的个数。103、所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;本步骤中,服务器根据存储的商品丰富信息,确定商品集合内部分商品的初始标签集,这部分工作量相对较少,可以通过少量人工完成。假设所有的初始标签都属于集合T,T={l1,l2,…,l|T|},Li=(li1,li2,…,li|T|)表示商品i对应的初始标签集合的0/1向量表示,其中lij∈{0,1},lij=1表示商品i被分配了初始标签lj。特别的,对于lij>0的初始标签称为商品i的初始标签,同时定义Mi=‖Li‖0,也就是商品i的初始标签的个数。104、所述服务器根据所述特征、所述邻近对象、及所述标签集,采用异源标签主题模型,为商品集内的商品生成标签。本步骤中,服务器根据101中获得的商品的文本特征以及102中获得的商品的邻近对象,采用异源标签主题模型,对于一个具体的需要生成标签的商品,模拟商品的文本特征、邻近对象和标签的生成过程,确定商品隐含主题分布和标签主题分布,将与商品隐含主题分布契合程度高的标签作为所述商品的标签。本专利技术实例提供的商品标签生成方法,通过对商品文本描述信息和用户行为序列的分析,获取商品的文本特征和邻近对象,另外由少量人工确定商品的初始标签集,然后采用异源标签主题模型,模拟商品文本特征、临近对象和商品标签的生成过程,确定商品隐含主题分布和标签主题分布,进一步为所有商品生成标签。该商品标签的生成过程中,仅需要少量的人工参与,无需用户参与分配商品标签,因此相对成本低本文档来自技高网...
商品标签生成方法及装置

【技术保护点】
一种商品标签生成方法,其特征在于,包括:服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。

【技术特征摘要】
1.一种商品标签生成方法,其特征在于,包括:服务器根据商品集合内每个商品对应的文本描述信息,获取每个商品的文本特征;所述商品集合包括至少两个商品;所述服务器根据用户的行为序列,获取每个商品的邻近对象;所述邻近对象包括:在所述用户的行为序列中,且与所述商品出现的时间间隔小于预设的时间间隔阈值的商品;所述服务器确定所述商品集合内部分商品的初始标签集;每个初始标签集包括至少一个标签;所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签。2.根据权利要求1所述的方法,其特征在于,采用异源标签主题模型,为所述商品集合内的商品生成标签之前,还包括:所述服务器根据所述文本特征、所述邻近对象和所述标签的生成过程,建立所述异源标签主题模型。3.根据权利要求1或2所述的方法,其特征在于,所述服务器根据所述文本特征、所述邻近对象及所述初始标签集,采用异源标签主题模型,为所述商品集合内的商品生成标签,具体包括:所述服务器根据所述文本特征、所述邻近对象、所述初始标签集,以及所述异源标签主题模型,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布;所述服务器将所述隐含主题分布和所述标签分布的内积的向量中,大于预设阈值的元素对应的标签作为所述商品的标签。4.根据权利要求1-3任一项所述的方法,其特征在于,所述异源标签主题模型,包括:所述服务器针对商品i,根据所述商品i的隐含主题分布θi,从所述隐含主题分布θi的多项分布中随机选取隐含主题和分别作为所述商品i的第j个文本特征对应的隐含主题以及所述商品i的第r个邻近对象对应的隐含主题;i的取值范围为从1到所述商品集合的商品总个数;j的取值范围为从1到所述商品i的文本特征个数;r的取值范围为从1到所述商品i的邻近对象个数;所述服务器针对隐含主题k,根据所述隐含主题对应的文本特征分布φk,以及隐含主题对应的邻近对象分布ψk,从所述文本特征分布φk和邻近对象分布ψk的多项分布随机选取一个文本特征和邻近对象k的取值范围为从1到K;所述K为隐含主题总个数,且为大于1的整数;所述服务器针对所述商品i的标签lt,获取所述标签lt的指示变量,根据所述指示变量所对应的隐含主题以及所述隐含主题对应的标签分布从所述标签分布的多项分布中随机选取一个标签,作为所述商品i的标签;lt∈T={l1,l2,…,l|T|};|T|表示集合T的元素个数;所述T为所述初始标签集的并集;其中,对于所述隐含主题k,所述文本特征分布φk满足变量为β的狄利克雷分布;所述β为预设参数;所述邻近对象分布ψk满足变量为γ的狄利克雷分布;所述γ为预设参数;所述标签分布满足变量为η的狄利克雷分布;所述η为预设参数;对于所述商品i,所述隐含主题分布θi满足变量为α的狄利克雷分布;所述α为预设参数。5.根据权利要求4所述的方法,其特征在于,获取所述标签lt的指示变量,具体包括:从均匀分布中随机获取所述标签lt的指示变量yit;若则所述标签t对应的隐含主题为若则所述标签t对应的隐含主题为其中,所述和分布为所述商品i的文本特征个数和邻近对象个数。6.根据权利要求5所述的方法,其特征在于,采用0阶展开的变分法获取所述商品的隐含主题分布和所述隐含主题分布对应的标签分布,具体包括:根据如下公式确定所述商品i的隐含主题分布θi和所述标签分布其中,θi为θik组成的向量;为组成的向量;mk·=∑...

【专利技术属性】
技术研发人员:刘红岩刘申何军
申请(专利权)人:清华大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1