一种社会热点与商品品类的匹配方法组成比例

技术编号:20820190 阅读:23 留言:0更新日期:2019-04-10 06:00
本发明专利技术涉及一种社会热点与商品品类的匹配方法,其步骤:构建商品品类知识图谱;获取微博热门话题内容;将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;对商品标题与微博内容进行文本匹配;将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。本发明专利技术能快速准确地找关联,并及时提供给有需求的店家,丰富店家的商品描述,提高商品销售效率。

【技术实现步骤摘要】
一种社会热点与商品品类的匹配方法
本专利技术涉及一种匹配方法,特别是关于一种社会热点与商品品类的匹配方法。
技术介绍
目前现有的电商平台中对商品与社会热点关联的挖掘并没有一个系统的算法,而是通过店主本身对时事热点情况的掌握,丰富与之相关的商品描述信息。社会热点话题的获取也是通过店主自己的了解。现有的方法虽然可以满足一部分用户的需求,但是存在许多不足。一方面,店家通过自己对时事热点的掌握修改商品描述需要一定的人力成本,另一方面,店家本身对于热点的了解不够全面,许多商家不了解的热点话题往往是顾客们热衷的话题。另外,店家自身获取信息的途径具有一定的滞后性,而许多热点话题也是具有时效性的,需要根据热点话题的变化对商品描述实时更新,这对于目前的方法是十分困难的。
技术实现思路
针对上述问题,本专利技术的目的是提供一种社会热点与商品品类的匹配方法,其能快速准确地找关联,并及时提供给有需求的店家,丰富店家的商品描述,提高商品销售效率。为实现上述目的,本专利技术采取以下技术方案:一种社会热点与商品品类的匹配方法,其包括以下步骤:1)构建商品品类知识图谱;2)获取微博热门话题内容;3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;4)对商品标题与微博内容进行文本匹配;5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。进一步,所述步骤1)中,商品品类知识图谱包括商品品类、三个实体和商品品类属性;每一个商品品类与三个实体关联,三个实体分别是泛产品品类、热搜词和品牌。进一步,所述泛产品品类是将多个相近的品类集中起来,作为匹配过程中的一个整体,减少匹配品类总数,提高话题匹配成功的概率;所述热搜词是用户在搜索指定商品时输入的搜索词,热搜词具有词频的属性,不同的热搜词被使用的次数不同,使用次数高的热搜词更能够代表对应的品类,在匹配过程中匹配成功之后贡献的得分也相应更高。进一步,所述步骤2)中,微博数据通过网络爬取,抓取最新的热搜微博内容;这些微博内容围绕同一个微博热搜榜话题,不仅包括话题发起者的微博,同时也包括微博用户对于该话题的相关评论,以及引用该话题的其他微博;将这些微博整理为文本,对其进行除噪过滤,将过滤之后的所有微博内容连接在一起,作为此话题对应的用于分析的微博内容,进而作为语料文本进行匹配。进一步,所述过滤方法包括以下步骤:2.1)去除所有的标点符号以及表情非常用文本符号;2.2)去除所有以“@”开头以及冒号结尾的字符串;2.3)去除以“#”开头与结尾的字符串。进一步,所述步骤3)中,匹配结果在已构建好的知识图谱上的检索方法如下:(1)泛产品品类识别检索:泛产品品类名称部分检索累计得分为Scoreg1,体识别结果在知识图谱中检索的累计得分为(2)对品牌名称识别检索:直接使用实体识别结果,识别出所有类型为品牌的实体,将这些实体在知识图谱中进行检索,与每个商品品类下相关的所有品牌进行比对,累计得分为Scoreb;(3)热搜词识别检索:对于所有的商品品类,找到该品类下相关的所有热搜词,将它们在微博内容中进行检索,检索结果累计得分为Scoreh;(4)商品属性识别检索:对于所有的商品品类,找到品类具有的属性值,将他们再微博内容中进行检索,检索结果累计得分为Scorea;(5)根据泛产品品类识别检索、品牌名称识别检索、热搜词识别检索和商品属性识别检索结果,得到最终匹配得分Score为:进一步,所述泛产品品类名称部分检索中,使用HanLP汉语言处理包对微博内容进行分词,并将所有的泛产品品类名称作为词典对分词结果进行过滤;过滤后出现次数最多的前十个词,去除其中出现次数不超过1次的词,用这些词在知识图谱中的泛产品品类名称部分进行检索,即与每一个商品品类下相关的所有泛产品品类名称进行匹配,每匹配成功,便为该品类累计得分进一步,所述实体识别结果在知识图谱中检索:采用BidirectionalLSTM-CRF模型,识别出微博文本中所有类型为泛产品品类的实体;将得到的实体在知识图谱中的泛产品品类名称部分进行检索,如果识别出的实体在之前HanLP分词结果中出现,则不再重复计算。进一步,所述步骤4)中,商品标题与微博内容匹配方法包括以下步骤:4.1)确定待匹配的文本;4.2)采用KNRM[1]模型,KNRM通过引入核函数机制,在多个不同相似度下计算每个词的特征向量,由词的特征向量构成句子的特征向量;4.3)将商品标题与微博内容文本的词向量矩阵计算相似度,进而得到相似度矩阵;4.4)在相似度矩阵上使用多个不同的核函数,在多种相似度水平上,分别计算微博文本内各个词对商品标题中词的相关性贡献值,得到商品标题中各词的软词频;4.5)将各词的软词频加和得到用于排序的特征,通过多层感知机得到最终的匹配分数。进一步,所述步骤5)中,商品品类知识图谱与热门话题内容匹配结果由微博文本与商品泛产品类目名称、品牌名称、热搜词与商品属性的精确匹配这四部分匹配结果综合得到,将这四部分匹配结果通过权重相加得到总得分;并且商品标题与微博内容直接采用文本匹配的方式,使用KNRM模型得到匹配结果的得分;将四部分匹配结果通过权重相加的总得分与KNRM模型得到匹配结果得分相结合,得到最终得分,将最终分数归一化到[0,1]区间,若分数大于0.5则认为匹配,否则不匹配。本专利技术由于采取以上技术方案,其具有以下优点:本专利技术根据实时获取的微博信息,以及已有的商品信息,可以快速准确地找到这样的关联,并及时提供给有需求的店家,丰富店家的商品描述,提高商品销售效率。附图说明图1是本专利技术的商品品类知识图谱示意图;图2是本专利技术的知识图谱检索流程示意图;图3是本专利技术的KNRM结构示意图。具体实施方式下面结合附图和实施例对本专利技术进行详细的描述。如图1所示,本专利技术提供一种社会热点与商品品类的匹配方法,其包括以下步骤:1)构建商品品类知识图谱;如图1所示,商品品类知识图谱包括商品品类、三个实体和商品品类属性。每一个商品品类与其它三个实体关联,三个实体分别是泛产品品类、热搜词和品牌,其中商品品类本身还具有一些品类本身特有的属性,热搜词还有词频属性。具体的实体含义如下:泛产品品类:将多个相近的品类集中起来,作为匹配过程中的一个整体,可以减少匹配品类总数,提高话题匹配成功的概率。原始数据给出了所有的商品品类,但是在这些商品品类中有很多品类对于顾客的需求没有太大的差异,如表1中品类名称所示。表1泛产品品类示例表1中呈现了三组泛产品品类名称,它们分别属于休闲娱乐、VR设备、保温壶这三个商品品类。品牌:对于每一个商品品类,都拥有许多商品品牌;对于品牌名的匹配可以准确找到关联的商品品类。比如卫衣品类下有诸如丹杰仕、乔丹、朵比妮等品牌名称。在微博文本中,许多商家的官方微博内容中经常会涉及到许多品牌名,例如Dior官博发布的微博:“青年演员身着Dior迪奥二零一八早秋系列精彩演绎时尚街拍……”中提到的品牌名Dior。热搜词:用户在搜索指定商品时输入的搜索词。比如对于中央空调品类下有关的热搜词有家用中央空调、美的本文档来自技高网...

【技术保护点】
1.一种社会热点与商品品类的匹配方法,其特征在于包括以下步骤:1)构建商品品类知识图谱;2)获取微博热门话题内容;3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;4)对商品标题与微博内容进行文本匹配;5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。

【技术特征摘要】
1.一种社会热点与商品品类的匹配方法,其特征在于包括以下步骤:1)构建商品品类知识图谱;2)获取微博热门话题内容;3)将商品品类知识图谱与热门话题内容进行匹配:对于每一个实时产生的热门话题,获得该话题对应的微博内容,对于其中涉及到的知识图谱中的不同实体,采用不同的匹配方法,将匹配结果在已构建好的知识图谱上进行检索,得到最终的匹配得分;4)对商品标题与微博内容进行文本匹配;5)将商品品类知识图谱与热门话题内容的匹配结果与商品标题与微博内容的匹配结果相结合,得到最终的匹配结果。2.如权利要求1所述方法,其特征在于:所述步骤1)中,商品品类知识图谱包括商品品类、三个实体和商品品类属性;每一个商品品类与三个实体关联,三个实体分别是泛产品品类、热搜词和品牌。3.如权利要求2所述方法,其特征在于:所述泛产品品类是将多个相近的品类集中起来,作为匹配过程中的一个整体,减少匹配品类总数,提高话题匹配成功的概率;所述热搜词是用户在搜索指定商品时输入的搜索词,热搜词具有词频的属性,不同的热搜词被使用的次数不同,使用次数高的热搜词更能够代表对应的品类,在匹配过程中匹配成功之后贡献的得分也相应更高。4.如权利要求1所述方法,其特征在于:所述步骤2)中,微博数据通过网络爬取,抓取最新的热搜微博内容;这些微博内容围绕同一个微博热搜榜话题,不仅包括话题发起者的微博,同时也包括微博用户对于该话题的相关评论,以及引用该话题的其他微博;将这些微博整理为文本,对其进行除噪过滤,将过滤之后的所有微博内容连接在一起,作为此话题对应的用于分析的微博内容,进而作为语料文本进行匹配。5.如权利要求4所述方法,其特征在于,所述过滤方法包括以下步骤:2.1)去除所有的标点符号以及表情非常用文本符号;2.2)去除所有以“@”开头以及冒号结尾的字符串;2.3)去除以“#”开头与结尾的字符串。6.如权利要求1所述方法,其特征在于:所述步骤3)中,匹配结果在已构建好的知识图谱上的检索方法如下:(1)泛产品品类识别检索:泛产品品类名称部分检索累计得分为体识别结果在知识图谱中检索的累计得分为(2)对品牌名称识别检索:直接使用实体识别结果,识别出所有类型为品牌的实体,将这些实体在知识图谱中进行检索,与每个商品品类下相关的所有品牌进行比对,累计得分为Scoreb;(3)热搜词识别检索:对于所有的商品品类,找到该品类下相关的所...

【专利技术属性】
技术研发人员:窦志成左笑晨黄真文继荣
申请(专利权)人:中国人民大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1