指标影响度的计算方法及装置、存储介质、电子设备制造方法及图纸

技术编号:37052142 阅读:16 留言:0更新日期:2023-03-29 19:29
本发明专利技术公开了一种指标影响度的计算方法及装置、存储介质、电子设备,其中,该方法包括:获取目标商品的商品描述图片;从所述商品描述图片中提取无序文本列表,并根据文本距离将所述无序文本列表调整为有序文本列表,得到所述商品描述图片的文本语义信息;获取所述目标商品的术语字典,并采用所述术语字典和术语抽取模型识别所述文本语义信息中的术语词;获取所述目标商品的销售指标数据,并分别计算多个术语词对所述销售指标数据的影响度。通过本发明专利技术,提高商品描述图片的可读性,减少其中的垃圾文本,提高商品描述图片的文本质量,解决了相关技术不能准确计算商品的描述术语对销售指标数据的影响度的技术问题。指标数据的影响度的技术问题。指标数据的影响度的技术问题。

【技术实现步骤摘要】
指标影响度的计算方法及装置、存储介质、电子设备


[0001]本专利技术涉及计算机
,具体而言,涉及一种指标影响度的计算方法及装置、存储介质、电子设备。

技术介绍

[0002]相关技术的电商营销文案中,大多数行业或品牌的术语词主要集中在商品图片详情页中,在术语抽取技术方面,目前大多技术主要采用无监督方式抽取术语,然后利用上下文语义关系,构建术语网络,在图片方面如何准确抽取图片中的具体类别的术语词,比较少涉及。
[0003]相关技术中,为了提高商品的销量等销售指标,会不断的调整和更新图片详情页中的描述词,但具体如何计算每个术语词对指标的影响程度,相关技术只能靠人员来预估对比,并不能准确的计算。
[0004]针对相关技术中存在的上述问题,目前尚未发现有效的解决方案。

技术实现思路

[0005]本专利技术实施例提供了一种指标影响度的计算方法及装置、存储介质、电子设备。
[0006]根据本申请实施例的一个方面,提供了一种指标影响度的计算方法,包括:获取目标商品的商品描述图片;从所述商品描述图片中提取无序文本列表,并根据文本距离将所述无序文本列表调整为有序文本列表,得到所述商品描述图片的文本语义信息;获取所述目标商品的术语字典,并采用所述术语字典和术语抽取模型识别所述文本语义信息中的术语词;获取所述目标商品的销售指标数据,并分别计算多个术语词对所述销售指标数据的影响度。
[0007]进一步,获取目标商品的商品描述图片包括:获取所述目标商品的商品描述图片的统一资源定位符URL地址;调用下载工具从所述URL地址下载所述商品描述图片。
[0008]进一步,从所述商品描述图片中提取无序文本列表,并根据文本距离将所述无序文本列表调整为有序文本列表,得到所述商品描述图片的文本语义信息包括:采用光学字符识别OCR工具提取所述商品描述图片中的多个文本字符和对应的文本坐标;采用所述多个文本字符和对应的文本坐标生成无序文本列表,其中,所述无序文本列表包括多个语言顺序随机排列的文本字符,所述无序文本列表的每个元素包括:文本字符、对应文本字符的横坐标、对应文本字符的纵坐标;采用所述无序文本列表生成所述商品描述图片的文本语义信息,其中,所述文本语义信息包括多个按照场景语义有序排列的文本字符。
[0009]进一步,采用所述无序文本列表生成所述商品描述图片的文本语义信息包括:按照文本坐标提取所述无序文本列表中的起始文本,将所述起始文本确定为目标文本;迭代执行以下步骤,直到所述无序文本列表为空:计算所述目标文本与所述无序文本列表中剩余所有文本的中心距离;判断第一相邻方向是否存在中心距离小于预设阈值的第一相近文本;若第一相邻方向存在中心距离小于预设阈值的第一相近文本,从所述无序文本列表中
提取所述第一相近文本,并在目标文本的后面拼接所述第一相近文本,将当前目标文本更新为所述第一相近文本;若第一相邻方向不存在中心距离小于预设阈值的第一相近文本,判断第二相邻方向是否存在中心距离小于预设阈值的第二相近文本;若第二相邻方向存在中心距离小于预设阈值的第二相近文本,从所述无序文本列表中提取所述第二相近文本,并在目标文本的后面拼接所述第二相近文本,将当前目标文本更新为所述第二相近文本;若第二相邻方向不存在中心距离小于预设阈值的第二相近文本,提取所述第一相邻方向的起始文本,将所述第一相邻方向的起始文本确定为所述目标文本的第三相近文本,并在目标文本的后面拼接所述第三相近文本,将当前目标文本更新为所述第三相近文本;将拼接完成的文本序列确定为所述商品描述图片的文本语义信息。
[0010]进一步,采用所述术语字典和术语抽取模型识别所述文本语义信息中的术语词包括:采用所述术语字典中的关键字遍历所述文本语义信息,得到与对应关键词匹配的多个第一目标术语,其中,所述术语字典包括多个术语的关键字;将所述第一目标术语标注为所述文本语义信息中对应命中字段的标签信息,得到样本数据;采用所述样本数据训练序列到序列模型,得到术语抽取模型;采用所述术语抽取模型抽取所述文本语义信息中的多个第二目标术语;融合所述多个第一目标术语和所述多个第二目标术语,得到所述文本语义信息中的术语词。
[0011]进一步,获取所述目标商品的销售指标数据,并分别计算多个术语词对所述销售指标数据的影响度包括:获取第一目标商品的第一销量数据和第二目标商品的第二销量数据,其中,所述销售指标数据包括所述销量数据,所述目标商品包括所述第一目标商品和所述第二目标商品;确定所述第一目标商品的第一术语集合,以及确定所述第二目标商品的第二术语集合;采用所述第一销量数据赋值所述第一术语集合中的每个第一术语,基于采用所述第二销量数据赋值所述第二术语集合中的每个第二术语;判断所述第一术语集合和所述第二术语集合是否存在相同的第三术语;若所述第一术语集合和所述第二术语集合存在相同的第三术语,采用所述第一销量数据和所述第二销量数据的均值赋值所述第三术语;基于销量数据对所述第一术语、所述第二术语和所述第三术语进行排序,得到第一影响度序列。
[0012]进一步,所述目标商品包括第三目标商品和第四目标商品,获取所述目标商品的销售指标数据,并分别计算多个术语词对所述销售指标数据的影响度包括:获取第三目标商品的第三销量数据和第四目标商品的第四销量数据,其中,所述销售指标数据包括所述销量数据;确定所述第三目标商品的第三术语集合,以及确定所述第四目标商品的第四术语集合;采用所述第三销量数据赋值所述第三术语集合中的每个术语,基于采用所述第四销量数据赋值所述第四术语集合中的每个术语;过滤所述第三术语集合和所述第四术语集合相同的术语,得到第五术语集合;基于销量数据对所述第五术语集合中的每个术语进行排序,得到第二影响度序列。
[0013]根据本申请实施例的另一个方面,还提供了一种指标影响度的计算装置,包括:获取模块,用于获取目标商品的商品描述图片;提取模块,用于从所述商品描述图片中提取无序文本列表,并根据文本距离将所述无序文本列表调整为有序文本列表,得到所述商品描述图片的文本语义信息;识别模块,用于获取所述目标商品的术语字典,并采用所述术语字典和术语抽取模型识别所述文本语义信息中的术语词;计算模块,用于获取所述目标商品
的销售指标数据,并分别计算多个术语词对所述销售指标数据的影响度。
[0014]进一步,所述获取模块包括:获取单元,用于获取所述目标商品的商品描述图片的统一资源定位符URL地址;下载单元,用于调用下载工具从所述URL地址下载所述商品描述图片。
[0015]进一步,所述提取模块包括:提取单元,用于采用光学字符识别OCR工具提取所述商品描述图片中的多个文本字符和对应的文本坐标;第一生成单元,用于采用所述多个文本字符和对应的文本坐标生成无序文本列表,其中,所述无序文本列表包括多个语言顺序随机排列的文本字符,所述无序文本列表的每个元素包括:文本字符、对应文本字符的横坐标、对应文本字符的纵坐标;第二生成单元,用于采用所述无序文本列表生成所述商品描述图片的文本语义信息,其中,所述文本语义本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种指标影响度的计算方法,其特征在于,包括:获取目标商品的商品描述图片;从所述商品描述图片中提取无序文本列表,并根据文本距离将所述无序文本列表调整为有序文本列表,得到所述商品描述图片的文本语义信息;获取所述目标商品的术语字典,并采用所述术语字典和术语抽取模型识别所述文本语义信息中的术语词;获取所述目标商品的销售指标数据,并分别计算多个术语词对所述销售指标数据的影响度。2.根据权利要求1所述的方法,其特征在于,获取目标商品的商品描述图片包括:获取所述目标商品的商品描述图片的统一资源定位符URL地址;调用下载工具从所述URL地址下载所述商品描述图片。3.根据权利要求1所述的方法,其特征在于,从所述商品描述图片中提取无序文本列表,并根据文本距离将所述无序文本列表调整为有序文本列表,得到所述商品描述图片的文本语义信息包括:采用光学字符识别OCR工具提取所述商品描述图片中的多个文本字符和对应的文本坐标;采用所述多个文本字符和对应的文本坐标生成无序文本列表,其中,所述无序文本列表包括多个语言顺序随机排列的文本字符,所述无序文本列表的每个元素包括:文本字符、对应文本字符的横坐标、对应文本字符的纵坐标;采用所述无序文本列表生成所述商品描述图片的文本语义信息,其中,所述文本语义信息包括多个按照场景语义有序排列的文本字符。4.根据权利要求3所述的方法,其特征在于,采用所述无序文本列表生成所述商品描述图片的文本语义信息包括:按照文本坐标提取所述无序文本列表中的起始文本,将所述起始文本确定为目标文本;迭代执行以下步骤,直到所述无序文本列表为空:计算所述目标文本与所述无序文本列表中剩余所有文本的中心距离;判断第一相邻方向是否存在中心距离小于预设阈值的第一相近文本;若第一相邻方向存在中心距离小于预设阈值的第一相近文本,从所述无序文本列表中提取所述第一相近文本,并在目标文本的后面拼接所述第一相近文本,将当前目标文本更新为所述第一相近文本;若第一相邻方向不存在中心距离小于预设阈值的第一相近文本,判断第二相邻方向是否存在中心距离小于预设阈值的第二相近文本;若第二相邻方向存在中心距离小于预设阈值的第二相近文本,从所述无序文本列表中提取所述第二相近文本,并在目标文本的后面拼接所述第二相近文本,将当前目标文本更新为所述第二相近文本;若第二相邻方向不存在中心距离小于预设阈值的第二相近文本,提取所述第一相邻方向的起始文本,将所述第一相邻方向的起始文本确定为所述目标文本的第三相近文本,并在目标文本的后面拼接所述第三相近文本,将当前目标文本更新为所述第三相近文本;将拼接完成的文本序列确定为所述商品描述图片的文本语义信息。5.根据权利要求1所述的方法,其特征在于,采用所述术语字典和术语抽取模型识别所
述文本语义信息中的术语词包括:采用所述术语字典中的关键字遍历所述文本语义信息,得到与对应关键词匹配的多个第一目标术语,其中,所述术语字典包括多个术语...

【专利技术属性】
技术研发人员:肖荣昌张家栋许先才熊磊
申请(专利权)人:深圳市云积分科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1