一种跨模态数据融合的个性化产品描述生成方法技术

技术编号：29585956 阅读：11 留言：0更新日期：2021-08-06 19:44

本发明专利技术公开了一种跨模态数据融合的个性化产品描述生成方法，首先需要采集电商网站中的产品描述数据集，包括了产品标题、描述、图像与产品属性对；其次对图像数据、文本数据进行格式化处理，对产品属性数据进行向量表征与聚类合并；然后预测图像的显示属性门控，再基于该门控机制提取图像中的显式属性，接下来识别产品图像中的显著性区域，再分别对不同的区域进行编码表示，最后使用提取出的视觉特征指导的产品描述生成。本发明专利技术能够通过产品标题与产品图像，依据用户历史行为自动批量生成个性化的产品描述，解决人工撰写产品描述费事费力的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种跨模态数据融合的个性化产品描述生成方法
本专利技术属于知识挖掘
，具体涉及一种个性化产品描述生成方法。
技术介绍
计算机与互联网技术极大的改变了人们的生活与行为方式，其中居民消费习惯的变化最为明显。依据商务部数据，2019年电子商务交易额已经达全年GDP的35.13％，可以看出，电子商务经济已经成为中国经济体系的重要组成部分。与传统线下商店相不同，用户在网络空间中无法与产品实体进行交互，只能依靠产品描述进一步了解产品信息，从而做出购买决策。产品描述是用户获取产品信息的主要渠道，其目的是向顾客提供有关产品的特性和优点。传统的产品描述通常是由商家聘用“专家”，根据产品信息进行手工撰写。然而手工撰写商品描述效率低下且成本较高，对于公司推广产品来说是一个较大的负担。在互联网如此庞大的电商规模之下，传统的手工撰写产品描述的方式已无法满足新时代的需求。人类撰写的商品描述受限于撰写者的经验、知识和对于产品的了解程度，在这样大规模、高频率的产品更新的情况下，人类撰写者没有时间、也没有精力去了解每一个产品的详细情况，导致写出的商品描述质量难以保证。另一方面，人工撰写的产品描述难以满足个性化需求，大多是尽可能覆盖所有的产品卖点，不同用户看到的都是相同的产品描述，可能会导致用户无法瞬间抓取到自己感兴趣的信息，最终丧失了进一步了解产品的动力。现有的关于商品描述和评论生成的方法，大多基于人工构建的规则或简单的生成模型，根据产品标题或结合外部知识库生成通用的产品描述，然而当产品标题与产品描述缺乏直接的实体联系时，此类方...

【技术保护点】
1.一种跨模态数据融合的个性化产品描述生成方法，其特征在于，包括以下步骤：/n步骤1：获取产品描述数据集；/n采集互联网电商网站中的产品描述，定义数据格式为<product

【技术特征摘要】
1.一种跨模态数据融合的个性化产品描述生成方法，其特征在于，包括以下步骤：
步骤1：获取产品描述数据集；
采集互联网电商网站中的产品描述，定义数据格式为<producttitle,productdesc,productimage,productattr_dict>，其中producttitle为产品标题；productdesc为产品描述；productimage为产品图像；productattr_dict为产品属性的键值对，以字典形式存储；
步骤2：产品图像数据格式化；
对产品图像进行统一缩放处理，分辨率统一为R*R，分辨率不足的图像使用白色填充；
步骤3：文本数据格式化；
去除长度小于L1的产品标题，对产品标题不足L2的文本进行补全，超过L2的进行截断处理；
去除长度小于L3的产品描述，对产品描述不足L4的文本进行补全，超过L4的进行截断处理；
步骤4：产品属性格式化；
使用预训练的Word2Vec将产品属性值进行向量化表征；再通过K-Means++算法对每一类属性的值进行聚类分析，将产品属性值划分为含义相近的类簇，共有A种；
步骤5：显式属性值门控预测；
采用ResNet网络从产品图像v中提取显式属性，判定图像中是否存在该种属性；
门控分布为：

其中，v表示产品图像，avgPool(v)为ResNet网络中平均池化层的输出，Wa与ba为可学习参数，i表示产品属性，i＝1,…,A；
使用属性门控gai表示产品是否具有第i个属性，gai的取值为0或1，表示为：

其中，maxid(.)表示输入向量最大值对应的索引；gai＝1表示产品具有第i个属性，gai＝0表示产品不具有第i个属性；
步骤6：显式属性值预测；
对每个产品属性构建属性分类器预测属性值，属性分类器均由一层全局平均池化和两层全连接神经网络构成；第i个属性分类器表示为Attri，Attri的全局平均池化层具有2048个7...

【专利技术属性】
技术研发人员：郭斌，郝少阳，於志文，梁韵基，王柱，
申请(专利权)人：西北工业大学，
类型：发明
国别省市：陕西;61

全部详细技术资料下载我是这个专利的主人