一种素材自动打标方法、装置及存储介质制造方法及图纸

技术编号:33637860 阅读:16 留言:0更新日期:2022-06-02 01:53
本发明专利技术提供了一种素材自动打标方法、装置及存储介质,其中素材自动打标方法包括步骤:构建用于匹配的词典库和图库;获取用户提供的素材;读取素材的第一描述信息,进行词典库匹配,判断是否匹配成功,如果匹配成功,则获取第一描述信息对应的标签信息并将其赋予素材;如果匹配不成功,则通过光学字符识别方法读取素材中的文字信息,进行词典库匹配,判断是否匹配成功,如果匹配成功,则获取文字信息对应的标签信息并将其赋予素材;如果匹配不成功,则进行图库匹配以获取素材的第二描述信息,进行词典库匹配,判断是否匹配成功,如果匹配成功,则获取第二描述信息对应的标签信息并将其赋予素材。予素材。予素材。

【技术实现步骤摘要】
一种素材自动打标方法、装置及存储介质


[0001]本专利技术涉及计算机
,具体涉及一种素材自动打标方法、装置及存储介质。

技术介绍

[0002]随着自媒体时代的来临,快消品的营销领域内容实现快速增长,在进行内容分发时,分发物料的管理尤为重要,如何提升物料的分发管理无论是对产品内容运营,还是对于内容再创作,都显得尤为重要,为了优化用户管理素材的体验,提升用户使用素材的效率,素材打标工具应运而生。在现有技术中的打标方法主要包括纯人工标注、机器通过不同文件夹目录下的内容进行分类标注和机器进行训练分类标注。传统的纯人工标注方法耗时耗力,使得在大批量的素材打标任务上显得不太可取;通过文件夹的管理的打标方式在后期处理过程中涉及的规则以及文件夹名过多,难以涵盖完全;通过机器进行训练标注的方法中,为了满足上线精度需求,需要标注的训练数据过大,且当类别的颗粒度过细时,模型较难收敛推理。因此,现有的打标方法无法满足快消品的营销领域素材的自动打标的需求。

技术实现思路

[0003]因此,本专利技术要解决的技术问题在于克服现有技术中的打标方法无法满足快消品的营销领域素材的自动打标的需求的问题。
[0004]为了解决上述技术问题,本专利技术提供一种素材自动打标方法,包括步骤:构建用于匹配的词典库和图库;获取用户提供的素材;读取所述素材的第一描述信息,对所述第一描述信息进行词典库匹配,判断是否匹配成功,如果所述第一描述信息的词典库匹配成功,则获取所述第一描述信息对应的标签信息并将其赋予所述素材,所述第一描述信息包括所述素材的文件名、属性和/或所述素材所在的文件夹名;如果所述第一描述信息的词典库匹配不成功,则通过光学字符识别方法读取所述素材中的文字信息,对所述文字信息进行词典库匹配,判断是否匹配成功,如果所述文字信息的词典库匹配成功,则获取所述文字信息对应的所述标签信息并将其赋予所述素材;如果所述文字信息的词典库匹配不成功,则对所述素材进行图库匹配以获取所述素材的第二描述信息,所述第二描述信息为在所述图库中匹配到的文本,对所述第二描述信息进行词典库匹配,判断是否匹配成功,如果所述第二描述信息的词典库匹配成功,则获取所述第二描述信息对应的所述标签信息并将其赋予所述素材。
[0005]可选地,其中对所述第二描述信息进行词典库匹配,判断是否匹配成功之后,还包括步骤:如果所述第二描述信息的词典库匹配不成功,则将所述素材的所述标签信息置空。
[0006]可选地,其中构建用于匹配的词典库的方法包括:获取若干商品的第三描述信息,基于所述第三描述信息创建所述标签信息,所述第三描述信息包括所述商品的名称和/或所述商品的属性;分别确定若干所述商品的所述标签信息;从所述第三描述信息中提取触发词,将所述触发词分别配置给对应的所述标签信息,从而得到所述词典库。
[0007]可选地,其中构建用于匹配的图库的方法包括:获取若干商品的第四描述信息和
商品图像,所述第四描述信息包括所述商品的名称和/或所述商品的属性,所述第四描述信息中包括所述触发词;提取所述商品图像的特征向量;将所述商品的索引号和所述第四描述信息存入mongodb数据库,将所述商品的索引号和所述商品图像的特征向量存入milvus数据库,从而得到所述图库。
[0008]可选地,所述进行词典库匹配的方法包括:将所述第一描述信息、文字信息或者第二描述信息通过AC自动机算法与所述词典库中的所述触发词进行匹配,获取匹配到的所述触发词对应的所述标签信息。
[0009]可选地,所述进行图库匹配的方法包括:提取所述素材的特征向量,在所述milvus数据库中检索与所述素材的特征向量最接近的所述商品图像的特征向量,获取检索到的所述图像的特征向量对应的所述商品的索引号,依据所述商品的索引号获取所述mongodb数据库中对应的所述第四描述信息,所获取的所述第四描述信息即为所述素材匹配到的所述第二描述信息。
[0010]可选地,所述提取所述商品图像的或者所述素材的特征向量的方法包括:采用图像预训练模型提取所述商品图像的或者所述素材的特征向量。
[0011]为了解决上述技术问题,本专利技术还提供一种素材自动打标装置,包括:存储器;以及与所述存储器连接的处理器,所述处理器被配置成:构建用于匹配的词典库和图库;获取用户提供的素材;读取所述素材的第一描述信息,对所述第一描述信息进行词典库匹配,判断是否匹配成功,如果所述第一描述信息的词典库匹配成功,则获取所述第一描述信息对应的标签信息并将其赋予所述素材,所述第一描述信息包括所述素材的文件名、属性和/或所述素材所在的文件夹名;如果所述第一描述信息的词典库匹配不成功,则通过光学字符识别方法读取所述素材中的文字信息,对所述文字信息进行词典库匹配,判断是否匹配成功,如果所述文字信息的词典库匹配成功,则获取所述文字信息对应的所述标签信息并将其赋予所述素材;如果所述文字信息的词典库匹配不成功,则对所述素材进行图库匹配以获取所述素材的第二描述信息,所述第二描述信息为在所述图库中匹配到的文本,对所述第二描述信息进行词典库匹配,判断是否匹配成功,如果所述第二描述信息的词典库匹配成功,则获取所述第二描述信息对应的所述标签信息并将其赋予所述素材。
[0012]为了解决上述技术问题,本专利技术还提供一种计算机存储介质,其上存储有计算机程序,其中所述计算机程序被机器执行时实现如上所述的方法的步骤。
[0013]本专利技术技术方案,具有如下优点:
[0014]1.本专利技术提供的一种素材自动打标方法,包括步骤:构建用于匹配的词典库和图库;获取用户提供的素材;读取所述素材的第一描述信息,对所述第一描述信息进行词典库匹配,判断是否匹配成功,如果所述第一描述信息的词典库匹配成功,则获取所述第一描述信息对应的标签信息并将其赋予所述素材,所述第一描述信息包括所述素材的文件名、属性和/或所述素材所在的文件夹名;如果所述第一描述信息的词典库匹配不成功,则通过光学字符识别方法读取所述素材中的文字信息,对所述文字信息进行词典库匹配,判断是否匹配成功,如果所述文字信息的词典库匹配成功,则获取所述文字信息对应的所述标签信息并将其赋予所述素材;如果所述文字信息的词典库匹配不成功,则对所述素材进行图库匹配以获取所述素材的第二描述信息,所述第二描述信息为在所述图库中匹配到的文本,对所述第二描述信息进行词典库匹配,判断是否匹配成功,如果所述第二描述信息的词典
库匹配成功,则获取所述第二描述信息对应的所述标签信息并将其赋予所述素材。
[0015]通过上述串联组合的自动打标方法,减轻了打标的工作量和工作压力,提高了打标效率。具体的,通过构建用于匹配的词典库,满足了自动打标的需求,减少了纯人工标注的工作量;通过光学字符识别方法读取素材中的文字信息,对文字信息进行词典库匹配,可以减少需要处理的文件夹信息,减少了文件夹名,减轻了通过文件夹名打标的规则书写工作压力;通过构建用于匹配的图库,可以对素材图本身进行匹配,而非做分类任务,无需对大量的图片进行机器打标训练。因此上述自动打标方法可以满足快本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种素材自动打标方法,其特征在于,包括如下步骤:构建用于匹配的词典库和图库;获取用户提供的素材;读取所述素材的第一描述信息,对所述第一描述信息进行词典库匹配,判断是否匹配成功,如果所述第一描述信息的词典库匹配成功,则获取所述第一描述信息对应的标签信息并将其赋予所述素材,所述第一描述信息包括所述素材的文件名、属性和/或所述素材所在的文件夹名;如果所述第一描述信息的词典库匹配不成功,则通过光学字符识别方法读取所述素材中的文字信息,对所述文字信息进行词典库匹配,判断是否匹配成功,如果所述文字信息的词典库匹配成功,则获取所述文字信息对应的所述标签信息并将其赋予所述素材;如果所述文字信息的词典库匹配不成功,则对所述素材进行图库匹配以获取所述素材的第二描述信息,所述第二描述信息为在所述图库中匹配到的文本,对所述第二描述信息进行词典库匹配,判断是否匹配成功,如果所述第二描述信息的词典库匹配成功,则获取所述第二描述信息对应的所述标签信息并将其赋予所述素材。2.根据权利要求1所述的素材自动打标方法,其特征在于,其中对所述第二描述信息进行词典库匹配,判断是否匹配成功之后,还包括步骤:如果所述第二描述信息的词典库匹配不成功,则将所述素材的所述标签信息置空。3.根据权利要求1所述的素材自动打标方法,其特征在于,其中构建用于匹配的词典库的方法包括:获取若干商品的第三描述信息,基于所述第三描述信息创建所述标签信息,所述第三描述信息包括所述商品的名称和/或所述商品的属性;分别确定若干所述商品的所述标签信息;从所述第三描述信息中提取触发词,将所述触发词分别配置给对应的所述标签信息,从而得到所述词典库。4.根据权利要求3所述的素材自动打标方法,其特征在于,其中构建用于匹配的图库的方法包括:获取若干商品的第四描述信息和商品图像,所述第四描述信息包括所述商品的名称和/或所述商品的属性,所述第四描述信息中包括所述触发词;提取所述商品图像的特征向量;将所述商品的索引号和所述第四描述信息存入mongodb数据库,将所述商品的索引号和所述商品图像的特征向量存入milvus数据库,从而得到所述图库。5.根据权利要求3所述的...

【专利技术属性】
技术研发人员:王喆范凌
申请(专利权)人:特赞上海信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1