一种家装图片自动标注方法及系统技术方案

技术编号：24252226 阅读：43 留言：0更新日期：2020-05-22 23:55

本发明专利技术涉及一种家装图片自动标注方法，特别涉及一种家装线上聊天场景下的图片自动标注方法。除对图片本身进行标注外，同时记录与图片相邻的N条上下文的文本内容，使用NLP分析文本内容来协助理解图片内容。这样标注出来的数据包含了更大的信息容量，仅通过少量标注的数据集也能够训练出一个相对准确的模型，再通过该模型自动识别新的图片后人工再审核后生成新的样本数据，重复这个过程可以大幅度提升图片内容标注数据的产生效率。这种标注方式确实与标准的图片标注方式相比增加了工作量，但通过较好的交互操作设计，增加的这部分工作量几乎可以忽略不计。

An automatic marking method and system for home decoration pictures

全部详细技术资料下载

【技术实现步骤摘要】
一种家装图片自动标注方法及系统
本专利技术涉及一种家装图片自动标注方法，特别涉及一种家装线上聊天场景下的图片自动标注方法。
技术介绍
家装行业作为典型的传统行业，想要完成整个行业的提档升级，完成互联网化、智能化的改造升级也就成了必经之路。其中，利用人工智能自动设别图片涵盖的各空间信息是家装业智能化升级的重要一步。深度学习做为处理图像视觉任务的强大工具在大部分场景下通过会获得比较理想的效果。然而构建一个使用监督学习实现多分类任务的图片识别模型需要大量的训练样本数据。虽然使用适用于图像深度学习的预训练模型可以一定程度上解决训练样本不足的问题，但预训练模型往往专注于普适性，对于特定领域下的支持能力较差，算法的使用者仍需要自己收集训练样本数据因此大量图片标注工作就成了摆在行业各企业面前的一个重要且紧急工作。目前该工作训练样本数据基本通过投入大量标注人员的方式实现。首先，大量标注人员势必会极大增加企业的人力成本支出；其次，所有的标注结果都由人的主观判断产生，难免会造成标注质量的层次不齐，进而影响后面的模型训练质量；最后，技术快...

【技术保护点】
1.一种家装图片自动标注方法，其特征在于，包括如下步骤：/n第1步，获取家装客服的聊天信息数据，信息数据中包含有聊天文本信息以及聊天图片；/n第2步，以聊天图片的前后各N句话以及图片是否与家装目标有关作为样本数据；采用人工神经网络模型，将图片之前的N句话和图片之后的N句话作为输入向量，以图片是否与家装目标有关作为输出向量，构建分类器，并训练模型；/n第3步，采用实际的聊天样本数据，通过训练好的模型进行样本中图片进行分类。/n

【技术特征摘要】
1.一种家装图片自动标注方法，其特征在于，包括如下步骤：
第1步，获取家装客服的聊天信息数据，信息数据中包含有聊天文本信息以及聊天图片；
第2步，以聊天图片的前后各N句话以及图片是否与家装目标有关作为样本数据；采用人工神经网络模型，将图片之前的N句话和图片之后的N句话作为输入向量，以图片是否与家装目标有关作为输出向量，构建分类器，并训练模型；
第3步，采用实际的聊天样本数据，通过训练好的模型进行样本中图片进行分类。

2.根据权利要求1所述的家装图片自动标注方法，其特征在于，在一个实施方式中，所述的N为1-10的任意整数。

3.根据权利要求2所述的家装图片自动标注方法，其特征在于，在一个实施方式中，所述的N优选为7。

4.根据权利要求1所述的家装图片自动标注方法，其特征在于，在一个实施方式中，第2步中，需要对聊天图片中的前后文进行向量化处理。

5.根据权利要求1所述的家装图片自动标注方法，其特征在于，在一个实施方式中，向量化处理的步骤包括：
S1，对前后文进行分词处理，并去除停用词；
S2，计算每个词的逆文本频率指数idf，其中idf=log(D/Dw)，D是指含有该单词的聊天语句的数量，Dw是聊天语句的总数；
S3，计算出每个词的词频tf，其中tf=f/fw，f为该词在聊天文本中出现的次数，fw为聊天文本中词的总数量；
S4，对于每个词，用该词的tf乘以idf，得到tf-idf值，将tf-idf值从大到小排序，选择最大的k个词再通过word2vector转为词向量。

【专利技术属性】
技术研发人员：陈旋，张平，付虹源，王刚，
申请(专利权)人：江苏艾佳家居用品有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人