商品短标题生成方法及装置制造方法及图纸

技术编号:24251570 阅读:23 留言:0更新日期:2020-05-22 23:35
本发明专利技术公开一种商品短标题生成方法及装置,涉及文本摘要技术领域,能够提高商品短标题的生成效率及精度。该方法包括:爬取商品标题数据和/或采集搜索词数据,构建语料数据集;基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;将词库中的各关键词按照词性标注为修饰词或品类词;获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。该装置应用有上述方案所提的方法。

Generating method and device of commodity short title

【技术实现步骤摘要】
商品短标题生成方法及装置
本专利技术涉及文本摘要
,尤其涉及一种商品短标题生成方法及装置。
技术介绍
商品短标题一般是由商品的标准长标题压缩而成,短标题顾名思义具有简洁短小的特点,旨在使用较少的字数对商品关键信息进行描述,使用户能够一目了然商品所要表示的商品关键信息,例如“韩版印花连衣裙”,这在自然语言处理上可以归类为一种特殊的文本摘要技术。传统的文本摘要技术,例如TextRank,Lead-3等都是对文章进行摘要,抽取文章中的句子,这种方法无法很好应用到商品标题上。随着深度学习的快速发展,seq2seq,pointer-generation等各种深度学习模型能够生成压缩后的短标题。但是,在现实的场景中,尤其是在商品标题这一块,缺乏大量的短标题训练语料,使之无法在真实场景中广泛应用。
技术实现思路
本专利技术的目的在于提供一种商品短标题生成方法及装置,能够提高商品短标题的生成效率及精度。为了实现上述目的,本专利技术的一方面提供一种商品短标题生成方法,包括:爬取商品标题数据和/或采集搜索词数据,构建语料数据集;基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;将词库中的各关键词按照词性标注为修饰词或品类词;获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。优选地,基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库的方法包括:基于商品分类表将语料数据集中的多条语料按照商品类别逐条分类;分别对多条语料分词得到多个关键词,将每个商品分类中的关键词去重后和过滤得到与商品分类一一对应的关键词集;汇总多个关键词集组建词库。较佳地,将词库中的各关键词按照词性标注为修饰词或品类词的方法包括:采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注;和/或,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注。进一步地,在采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:爬取新的商品标题数据分词后与词库中的关键词匹配;当匹配成功的关键词数量小于阈值,则将新的商品标题数据中的关键词补入对应的关键词集,并对新补入的关键词进行词性标注;当匹配成功的关键词数量大于阈值,则再次爬取新的商品标题数据分词后与词库中的关键词匹配。优选地,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:基于机器模型中的语义识别技术,从新爬取的商品标题数据中提取出属于修饰词或者品类词的关键词补入对应的关键词集,同时对新补入的关键词进行对应词性的标注。优选地,获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词的方法包括:识别原始商品标题数据中的商品分类,匹配对应的关键词集;将原始商品标题数据分词为多个标题词,将各标题词分别与对应关键词集中的关键词进行匹配,筛选出匹配成功的关键词。优选地,从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题的方法包括:记录原始商品标题数据中各关键词的位置信息;若标注为修饰词的关键词中存在词义范围交叉的多个关键词,仅保留交叉中的一个关键词;若标注为修饰词的关键词中存在词义范围包含的多个关键词,仅保留词义范围大的关键词;若标注为品类词的关键词的词义中包含有修饰词的关键词词义,则将对应的修饰词的关键词剔除;将保留下的关键词定义为有效关键词,并按照有效关键词所在的位置顺序拼接成商品短标题。可选地,将多个原始商品标题数据分别与词库匹配,并行处理后输出对应的多个商品短标题。示例性,搜索词数据为用户在搜索商品时对应输入的搜索词的集合。与现有技术相比,本专利技术提供的商品短标题生成方法具有以下有益效果:本专利技术提供的商品短标题生成方法中,首先构建语料数据集,然后基于商品分类表将语料数据集中的语料进行分类,分类完成后提取出语料中的关键词共同组建词库,同时对词库中的各关键词按照词性标注为修饰词或品类词,至此词库建设完成,接下来可获取原始商品标题数据准备压缩,将原始商品标题数据分词后得到多个标题词,将这些标题词输入词库与关键词匹配,从匹配成功的关键词中筛选出至少两个有效关键词,将其按照词性顺序拼接后组成商品短标题。可见,本专利技术采用将语料分类再标注的方案,能够有效降低标注过程的难度进而加快关键词标注的效率,通过将原始商品标题数据分词后直接与词库中的关键词匹配,经筛选拼接得到的商品短标题的准确性相对较高。本专利技术的另一方面提供一种商品短标题生成装置,应用有上述技术方案提到的用于商品短标题生成方法,该装置包括:数据采集单元,用于爬取商品标题数据和/或采集搜索词数据,构建语料数据集;词库单元,用于基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;词标注单元,用于将词库中的各关键词按照词性标注为修饰词或品类词;词匹配单元,用于获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;处理单元,用于从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。与现有技术相比,本专利技术提供的商品短标题生成装置的有益效果与上述技术方案提供的商品短标题生成方法的有益效果相同,在此不做赘述。本专利技术的第三方面提供一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述商品短标题生成方法的步骤。与现有技术相比,本专利技术提供的计算机可读存储介质的有益效果与上述技术方案提供的商品短标题生成方法的有益效果相同,在此不做赘述。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本专利技术的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1为实施例一中商品短标题生成方法的流程示意图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其它实施例,均属于本专利技术保护的范围。实施例一请参阅图1,本实施例提供一种商品短标题生成方法,包括:爬取商品标题数据和/或采集搜索词数据,构建语料数据集;基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键本文档来自技高网...

【技术保护点】
1.一种商品短标题生成方法,其特征在于,包括:/n爬取商品标题数据和/或采集搜索词数据,构建语料数据集;/n基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;/n将词库中的各关键词按照词性标注为修饰词或品类词;/n获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;/n从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。/n

【技术特征摘要】
1.一种商品短标题生成方法,其特征在于,包括:
爬取商品标题数据和/或采集搜索词数据,构建语料数据集;
基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库;
将词库中的各关键词按照词性标注为修饰词或品类词;
获取原始商品标题数据分词得到多个标题词,将各标题词分别与词库中的关键词匹配,输出匹配成功的关键词;
从多个关键词中筛选出至少两个有效关键词,根据词性拼接组成商品短标题。


2.根据权利要求1所述的方法,其特征在于,基于商品分类表将语料数据集中的多条语料按商品类别分类后,提取关键词组建词库的方法包括:
基于商品分类表将语料数据集中的多条语料按照商品类别逐条分类;
分别对多条语料分词得到多个关键词,将每个商品分类中的关键词去重后和过滤得到与商品分类一一对应的关键词集;
汇总多个关键词集组建词库。


3.根据权利要求2所述的方法,其特征在于,将词库中的各关键词按照词性标注为修饰词或品类词的方法包括:
采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注;和/或,
采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注。


4.根据权利要求3所述的方法,其特征在于,在采用人工标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
爬取新的商品标题数据分词后与词库中的关键词匹配;
当匹配成功的关键词数量小于阈值,则将新的商品标题数据中的关键词补入对应的关键词集,并对新补入的关键词进行词性标注;
当匹配成功的关键词数量大于阈值,则再次爬取新的商品标题数据分词后与词库中的关键词匹配。


5.根据权利要求3或4所述的方法,其特征在于,采用机器模型标注的方式,从词库中提取出属于修饰词或者品类词的关键词并进行对应词性的标注之后还包括:
基于机器模型中的语义识别技术,从新爬取的商品标题数据中提取出属于修饰词...

【专利技术属性】
技术研发人员:朱斌沈艺齐康倪合强陈述
申请(专利权)人:苏宁云计算有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1