一种跨模态数据融合的个性化产品描述生成方法技术

技术编号:29585956 阅读:11 留言:0更新日期:2021-08-06 19:44
本发明专利技术公开了一种跨模态数据融合的个性化产品描述生成方法,首先需要采集电商网站中的产品描述数据集,包括了产品标题、描述、图像与产品属性对;其次对图像数据、文本数据进行格式化处理,对产品属性数据进行向量表征与聚类合并;然后预测图像的显示属性门控,再基于该门控机制提取图像中的显式属性,接下来识别产品图像中的显著性区域,再分别对不同的区域进行编码表示,最后使用提取出的视觉特征指导的产品描述生成。本发明专利技术能够通过产品标题与产品图像,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。

【技术实现步骤摘要】
一种跨模态数据融合的个性化产品描述生成方法
本专利技术属于知识挖掘
,具体涉及一种个性化产品描述生成方法。
技术介绍
计算机与互联网技术极大的改变了人们的生活与行为方式,其中居民消费习惯的变化最为明显。依据商务部数据,2019年电子商务交易额已经达全年GDP的35.13%,可以看出,电子商务经济已经成为中国经济体系的重要组成部分。与传统线下商店相不同,用户在网络空间中无法与产品实体进行交互,只能依靠产品描述进一步了解产品信息,从而做出购买决策。产品描述是用户获取产品信息的主要渠道,其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”,根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高,对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下,传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识和对于产品的了解程度,在这样大规模、高频率的产品更新的情况下,人类撰写者没有时间、也没有精力去了解每一个产品的详细情况,导致写出的商品描述质量难以保证。另一方面,人工撰写的产品描述难以满足个性化需求,大多是尽可能覆盖所有的产品卖点,不同用户看到的都是相同的产品描述,可能会导致用户无法瞬间抓取到自己感兴趣的信息,最终丧失了进一步了解产品的动力。现有的关于商品描述和评论生成的方法,大多基于人工构建的规则或简单的生成模型,根据产品标题或结合外部知识库生成通用的产品描述,然而当产品标题与产品描述缺乏直接的实体联系时,此类方法将无法使用,但产品图像中往往包含这些信息,可以从产品图像中提取合适的视觉信息指导产品描述生成。
技术实现思路
为了克服现有技术的不足,本专利技术提供了一种跨模态数据融合的个性化产品描述生成方法,首先需要采集电商网站中的产品描述数据集,包括了产品标题、描述、图像与产品属性对;其次对图像数据、文本数据进行格式化处理,对产品属性数据进行向量表征与聚类合并;然后预测图像的显示属性门控,再基于该门控机制提取图像中的显式属性,接下来识别产品图像中的显著性区域,再分别对不同的区域进行编码表示,最后使用提取出的视觉特征指导的产品描述生成。本专利技术能够通过产品标题与产品图像,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题。本专利技术解决其技术问题所采用的技术方案包括如下步骤:步骤1:获取产品描述数据集;采集互联网电商网站中的产品描述,定义数据格式为<producttitle,productdesc,productimage,productattr_dict>,其中producttitle为产品标题;productdesc为产品描述;productimage为产品图像;productattr_dict为产品属性的键值对,以字典形式存储;步骤2:产品图像数据格式化;对产品图像进行统一缩放处理,分辨率统一为R*R,分辨率不足的图像使用白色填充;步骤3:文本数据格式化;去除长度小于L1的产品标题,对产品标题不足L2的文本进行补全,超过L2的进行截断处理;去除长度小于L3的产品描述,对产品描述不足L4的文本进行补全,超过L4的进行截断处理;步骤4:产品属性格式化;使用预训练的Word2Vec将产品属性值进行向量化表征;再通过K-Means++算法对每一类属性的值进行聚类分析,将产品属性值划分为含义相近的类簇,共有A种;步骤5:显式属性值门控预测;采用ResNet网络从产品图像v中提取显式属性,判定图像中是否存在该种属性;门控分布为:其中,v表示产品图像,avgPool(v)为ResNet网络中平均池化层的输出,Wa与ba为可学习参数,i表示产品属性,i=1,...,A;使用属性门控gai表示产品是否具有第i个属性,gai的取值为0或1,表示为:其中,maxid(.)表示输入向量最大值对应的索引;gai=1表示产品具有第i个属性,gai=0表示产品不具有第i个属性;步骤6:显式属性值预测;对每个产品属性构建属性分类器预测属性值,属性分类器均由一层全局平均池化和两层全连接神经网络构成;第i个属性分类器表示为Attri,Attri的全局平均池化层具有2048个7×7卷积核,第一层全连接神经网络具有2048个神经元,第二层全连接神经网络的神经元数量为ti∈(t1,t2,...tA),其中ti为第i类属性的能够取值的数量;则对于第i个属性,显式属性值预测的分布为:其中,W1、W2、b1、b2为可学习的网络参数;对应的最大值下标即为预测出的具体的显式属性值;步骤7:隐式视觉特征提取;将产品图像v输入预训练的FasterR-CNN网络,把FasterR-CNN网络的RegionProposal模块中ROI池化层的输出作为隐式视觉特征,表示为步骤8:视觉特征指导的产品描述生成;步骤8-1:针对显式属性,将产品所具有的属性使用双向GRU编码,第i个属性的编码表示为使用Attention机制计算显式属性的上下文向量表示形式化表示为:其中Wg为可学习的网络参数,表示生成时GRU第t个时间步输出的隐层状态,m为可训练参数,用于调整的输出维度;步骤8-2:针对隐式编码,在生成第t个产品描述词汇时,从产品图像中计算出上下文向量为:其中,WI、bI表示可学习的网络参数;步骤8-3:采用视觉门控机制gI用于过滤视觉信息中的噪音,其计算方式为:其中WV、Wh与bv为可学习的参数;从图像中抽取得到的视觉信息表示为:步骤8-4:将作为检索向量,使用Attention机制从产品标题中抽取到的上下文向量表示为最终生成对产品描述词汇的概率分布为:其中,Wimg、bw为可学习的网络参数,w表示产品描述词汇。优选地,所述R=800,L1=7,L2=30,L3=10,L4=50。本专利技术的有益效果如下:本专利技术能够通过产品标题与产品图像,依据用户历史行为自动批量生成个性化的产品描述,解决人工撰写产品描述费事费力的问题,一定程度上降低中小企业运营成本。传统方法一般通过产品标题从知识库中进行检索,但当标题与知识库缺乏实体联系时这种方法很难奏效,本专利技术通过产品图像重新建立起了该联系,一定程度上解决了该问题。附图说明图1为本专利技术方法产品描述生成框架。图2为本专利技术方法显式属性提取框架。图3为本专利技术实施例产品属性值合并归类结果。具体实施方式下面结合附图和实施例对本专利技术进一步说明。本专利技术利用以下原理:图像中往往包含产品标题实体中不存在的信息,可以用来指导产品描述生成。提取图像中的显式语义能够明确的提取出图像中的微观视觉本文档来自技高网
...

【技术保护点】
1.一种跨模态数据融合的个性化产品描述生成方法,其特征在于,包括以下步骤:/n步骤1:获取产品描述数据集;/n采集互联网电商网站中的产品描述,定义数据格式为<product

【技术特征摘要】
1.一种跨模态数据融合的个性化产品描述生成方法,其特征在于,包括以下步骤:
步骤1:获取产品描述数据集;
采集互联网电商网站中的产品描述,定义数据格式为<producttitle,productdesc,productimage,productattr_dict>,其中producttitle为产品标题;productdesc为产品描述;productimage为产品图像;productattr_dict为产品属性的键值对,以字典形式存储;
步骤2:产品图像数据格式化;
对产品图像进行统一缩放处理,分辨率统一为R*R,分辨率不足的图像使用白色填充;
步骤3:文本数据格式化;
去除长度小于L1的产品标题,对产品标题不足L2的文本进行补全,超过L2的进行截断处理;
去除长度小于L3的产品描述,对产品描述不足L4的文本进行补全,超过L4的进行截断处理;
步骤4:产品属性格式化;
使用预训练的Word2Vec将产品属性值进行向量化表征;再通过K-Means++算法对每一类属性的值进行聚类分析,将产品属性值划分为含义相近的类簇,共有A种;
步骤5:显式属性值门控预测;
采用ResNet网络从产品图像v中提取显式属性,判定图像中是否存在该种属性;
门控分布为:



其中,v表示产品图像,avgPool(v)为ResNet网络中平均池化层的输出,Wa与ba为可学习参数,i表示产品属性,i=1,…,A;
使用属性门控gai表示产品是否具有第i个属性,gai的取值为0或1,表示为:



其中,maxid(.)表示输入向量最大值对应的索引;gai=1表示产品具有第i个属性,gai=0表示产品不具有第i个属性;
步骤6:显式属性值预测;
对每个产品属性构建属性分类器预测属性值,属性分类器均由一层全局平均池化和两层全连接神经网络构成;第i个属性分类器表示为Attri,Attri的全局平均池化层具有2048个7...

【专利技术属性】
技术研发人员:郭斌郝少阳於志文梁韵基王柱
申请(专利权)人:西北工业大学
类型:发明
国别省市:陕西;61

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1