【技术实现步骤摘要】
商品短标题生成方法及装置
本专利技术涉及文本摘要
,尤其涉及一种商品短标题生成方法及装置。
技术介绍
商品短标题一般是由商品的标准长标题压缩而成,短标题顾名思义具有简洁短小的特点,旨在使用较少的字数对商品关键信息进行描述,使用户能够一目了然商品所要表示的商品关键信息,例如“韩版印花连衣裙”,这在自然语言处理上可以归类为一种特殊的文本摘要技术。传统的文本摘要技术,例如TextRank,Lead-3等都是对文章进行摘要,抽取文章中的句子,这种方法无法很好应用到商品标题上。随着深度学习的快速发展,seq2seq,pointer-generation等各种深度学习模型能够生成压缩后的短标题。但是,在现实的场景中,尤其是在商品标题这一块,缺乏大量的短标题训练语料,使之无法在真实场景中广泛应用。
技术实现思路
本专利技术的目的在于提供一种商品短标题生成方法及装置,能够提高商品短标题的生成效率及精度。为了实现上述目的,本专利技术的一方面提供一种商品短标题生成方法,包括:爬取商品标题数据和/ ...
【技术保护点】
1.一种商品短标题生成方法,其特征在于,包括:/n爬取商品标题数据和/或采集搜索词数据,构建语料数据集;/n基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;/n将词库中的各关键词按照词性标注为修饰词或品类词;/n获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;/n从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。/n
【技术特征摘要】
1.一种商品短标题生成方法,其特征在于,包括:
爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
将词库中的各关键词按照词性标注为修饰词或品类词;
获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。
2.根据权利要求1所述的方法,其特征在于,基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库的方法包括:
基于商品分类表将语料数据集中的多条语料按照商品类别逐条分类;
分别对多条语料分词得到多个关键词,将每个商品分类中的关键词去重后和过滤得到与商品分类一一对应的关键词集;
汇总多个关键词集组建词库。
3.根据权利要求2所述的方法,其特征在于,将词库中的各关键词按照词性标注为修饰词或品类词的方法包括:
采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注;和/或,
采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注。
4.根据权利要求3所述的方法,其特征在于,在采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
爬取新的商品标题数据分词后与词库中的关键词匹配;
当匹配成功的关键词数量小于阈值,则将新的商品标题数据中的关键词补入对应的关键词集,并对新补入的关键词进行词性标注;
当匹配成功的关键词数量大于阈值,则再次爬取新的商品标题数据分词后与词库中的关键词匹配。
5.根据权利要求3或4所述的方法,其特征在于,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
基于机器模型中的语义识别技术,从新爬取的商品标题数据中提取出属于修饰词...
【专利技术属性】
技术研发人员:朱斌,沈艺,齐康,倪合强,陈述,
申请(专利权)人:苏宁云计算有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。