当前位置: 首页 > 专利查询>河海大学专利>正文

一种基于频繁项目集的图片标注推荐方法技术

技术编号:21115843 阅读:25 留言:0更新日期:2019-05-16 09:01
本发明专利技术公开了一种基于频繁项目集的图片标注推荐方法。首先通过构建频繁模式树,从频繁模式树中获取频繁项目集;然后计算重合度并构建稀疏自编码神经网络,通过其计算频繁项目集中图片和用户标注过的图片的相似度,进而对用户进行推荐;最后判断图片是否标记完成。本发明专利技术对进行处理和分组后的数据进行频繁项目集发掘,并增加了稀疏自编码神经网络进行特征提取,根据提取到的特征将需要进行标注的图片推送到有对应兴趣或专业知识背景的用户那里进行标注,从而解决了海量图片标注过程中效率、标注准确度差等问题,提升了图片标注的速度和准确度。

【技术实现步骤摘要】
一种基于频繁项目集的图片标注推荐方法
本专利技术属于数据挖掘
,特别涉及了一种基于频繁项目集的图片标注推荐方法。
技术介绍
机器视觉系统在训练过程中,需要通过识别已经标注好的样本来逐步提高机器视觉系统识别图片的准确性,这样就需要提前准备海量已经标注好的训练样本图片。传统的制作训练样本的方法是集中一部分人,以人工方式对图片标签化,这种方式不仅效率低,而且因为每个人具备的专业知识不一样,导致标注的质量参差不齐。现有的图片标注系统如LabelImg、BBox-Label-Tool等仅支持单个用户对图片进行标注,但不能根据用户的专业知识背景对图片进行分发,因此需要一个智能系统能够让大量的图片得到快速、准确地标注。数据挖掘是一种从大型数据库或数据仓库中发现并提取出隐藏在其中有用信息的一种新技术。它自动从数据中提取出人们感兴趣的潜在可用信息和知识,并将提取出来的信息和知识表示成概念、规则、规律或模式。自从Agrawal等人于1993年提出频繁模式挖掘问题以来,已经提出了许多行之有效的技术来进行频繁模式挖掘。根据挖掘的目标和应用领域的不同,这些挖掘方法可以分为两大类:产生候选集/候选模式的方法和不产生候选集/候选模式的方法。前一种方法以算法Apriori为代表,而后一种以算法FP-growth为代表。FP-growth算法不同于Apriori算法生成候选项集再检验是否频繁的“产生-测试”方法,而是使用一种称为频繁模式树(FP-tree)的紧凑数据结构组织数据,并直接从该结构中提取频繁项目集。FP-growth算法将事务数据库有效地压缩成小存储空间的数据结构,克服了Apriori算法中多次扫描事务数据库的缺陷,只需对事务数据库进行二次扫描,将发现长频繁模式的问题转化递归模式增长的策略,避免产生的大量候选集,大大降低了算法的时间复杂度。
技术实现思路
为了解决现有技术中海量图片标注过程中效率、标注准确度差等问题,本专利技术提供了一种基于频繁项目集的图片标注推荐方法,提升了图片标注的速度和准确度。为了实现上述技术目的,本专利技术的技术方案为:一种基于频繁项目集的图片标注推荐方法,包括如下步骤:(1)当新用户首次登录时,因为该新用户没有历史标签,所以将随机向其推送无标签的图片;(2)当用户拥有历史标签后,获取系统中所有标签构成项目集合L;获取每个用户的历史标签构成事务数据库D,事务数据库D中的每一个事务都与唯一的一个用户对应;(3)采用频繁模式增长算法构建频繁模式树,并从频繁模式树中获取频繁项目集;(4)每当用户有新的图片标注请求时,系统便会在频繁项目集中查找,选择用户感兴趣的图片;(5)当用户标记过一张图片后,立即判断这张图片是否完成标注,即是否这张图片的标签数目满足一阈值v且按频数排序后前N项标签的频数同时满足一阈值w;若完成标注,则该图片标记为已完成,将标注完成的图片导出,且在查找图片阶段不再推送该图片。进一步地,步骤(3)中构建频繁模式树的具体过程如下:(301)扫描事务数据库D,过滤掉所有不满足最小支持度的标签,认为这些标签是不频繁的,不参与频繁模式树的建立;对于满足最小支持度的标签,按照全局支持度降序排序;一个标签的全局支持度被定义为扫描事务数据库D中包含该标签的记录所占的比例;(302)为了快速访问频繁模式树中的相同标签,在扫描事务数据库D的同时建立一个连接具有相同标签的结点的指针列表,每个列表元素包括标签项、该标签的全局支持度和指向频繁模式树中该项链表的表头的指针;(303)再次扫描过滤后的事务数据库D;创建频繁模式树根结点,将频繁模式树的结点定义为标签、频数、父结点和子结点集;然后将排序后的每个标签项插入频繁模式树中,并将用户的职业信息作为一个虚拟的标签加在末尾;如果某个标签项是第一次遇到,则创建新结点,并在指针列表中添加一个指向该结点的指针,否则按路径找到该标签对应的结点,修改结信息;(304)当所有标签加入频繁模式树后,建树过程结束。进一步地,步骤(3)中获取频繁项目集的具体过程如下:(311)从频繁模式树头指针列表中的单个频繁标签开始,对于每一个标签,获得其对应的条件模式基,即该标签的前缀路径中所有的标签的集合;由于在树的结点定义中有父结点及指向该结点的指针,因此遍历头指针列表,向上回溯到根结点,构造前缀路径;(312)根据每一标签项的条件模式基和最小支持度的要求构造每一标签项的条件模式树,发掘频繁项目集,并将频繁项目集存入事务数据库D中。进一步地,步骤(4)的具体过程如下:(401)计算频繁项目集与用户历史标签集合的重合度val,找出重合度val大于设定阈值r的全部频繁项目集组成集合I,并对集合I进行扩充,使集合I中图片的数量达到设定值leastNum,把扩充后的集合定义为集合I-extend;(402)当拥有了数量M的已标注图片后,用这些图片构建一个稀疏自编码神经网络,通过该神经网络学习集合I-extend中的图片作为特征向量x,学习用户标注过的图片作为特征向量y;(403)判断是否存在已构建成功的稀疏自编码神经网络,若存在,则转入步骤(404);若不存在,则将集合I-extend中的图片推荐给用户;(404)计算特征向量x与特征向量y的相似度Sxy,若相似度大于设定阈值u,则将此频繁项目集推荐给用户,反之则不推荐。进一步地,在步骤(401)中,优先随机选择没有标签的图片对集合I扩充;按下式计算重合度val:val=F(setA,setB)上式中,setA为当前频繁项目集,setB为用户历史标签集合,F定义如下:设集合A中与集合B中相同的元素数目为X,A中有而B中没有的元素数目为Y,B中有而A中没有的元素数目为Z,则F(A,B)=X+Y–Z。进一步地,所述稀疏自编码神经网络分为三层:输入层,隐藏层和输出层;对于集合I-extend,把集合I-extend中的图片作为稀疏自编码神经网络的输入,将隐藏层的输出作为特征向量x;对于用户标注过的图片,把用户一段时间内标注过的图片作为稀疏自编码神经网络的输入,将隐藏层的输出作为特征向量y;每当增加了数量M的已标注图片后对稀疏自编码神经网络进行更新。进一步地,在步骤(404)中,按下式计算相似度Sxy;上式中,xj和yj分别为特征向量x和特征向量y中的第j个特征,p为特征个数。采用上述技术方案带来的有益效果:本专利技术直接将频繁项目集存放到数据库中,避免多次计算。同时,每隔一段时间在机器空闲时重建频繁项目集,实现推荐的动态更新。当第一批图片标注完成后首次构建稀疏自编码神经网络,此后每当有一批图片标注完成时便更新稀疏自编码神经网络,实现推荐的动态更新。在过滤及重排后的项目中,将用户的职业信息作为一个虚拟的标签加在最后,以发掘出用户喜好的标签与用户职业的关联。附图说明图1是本专利技术的方法流程图。具体实施方式以下将结合附图,对本专利技术的技术方案进行详细说明。本专利技术设计了一种基于频繁项目集的图片标注推荐算法,如图1所示,包括如下步骤:步骤1:当一个新用户首次登录时,因为其没有历史标签,所以将随机推送无标签的图片。步骤2:获取系统中所有标签构成项目集合L={l1,l2,l3,…,ln},n为所有标签的个数。获取每个用户的历史标签构成事务数据库D={d1,d2,…,dm},本文档来自技高网
...

【技术保护点】
1.一种基于频繁项目集的图片标注推荐方法,其特征在于,包括如下步骤:(1)当新用户首次登录时,因为该新用户没有历史标签,所以将随机向其推送无标签的图片;(2)当用户拥有历史标签后,获取系统中所有标签构成项目集合L;获取每个用户的历史标签构成事务数据库D,事务数据库D中的每一个事务都与唯一的一个用户对应;(3)采用频繁模式增长算法构建频繁模式树,并从频繁模式树中获取频繁项目集;(4)每当用户有新的图片标注请求时,系统便会在频繁项目集中查找,选择用户感兴趣的图片;(5)当用户标记过一张图片后,立即判断这张图片是否完成标注,即是否这张图片的标签数目满足一阈值v且按频数排序后前N项标签的频数同时满足一阈值w;若完成标注,则该图片标记为已完成,将标注完成的图片导出,且在查找图片阶段不再推送该图片。

【技术特征摘要】
1.一种基于频繁项目集的图片标注推荐方法,其特征在于,包括如下步骤:(1)当新用户首次登录时,因为该新用户没有历史标签,所以将随机向其推送无标签的图片;(2)当用户拥有历史标签后,获取系统中所有标签构成项目集合L;获取每个用户的历史标签构成事务数据库D,事务数据库D中的每一个事务都与唯一的一个用户对应;(3)采用频繁模式增长算法构建频繁模式树,并从频繁模式树中获取频繁项目集;(4)每当用户有新的图片标注请求时,系统便会在频繁项目集中查找,选择用户感兴趣的图片;(5)当用户标记过一张图片后,立即判断这张图片是否完成标注,即是否这张图片的标签数目满足一阈值v且按频数排序后前N项标签的频数同时满足一阈值w;若完成标注,则该图片标记为已完成,将标注完成的图片导出,且在查找图片阶段不再推送该图片。2.根据权利要求1所述基于频繁项目集的图片推荐方法,其特征在于,步骤(3)中构建频繁模式树的具体过程如下:(301)扫描事务数据库D,过滤掉所有不满足最小支持度的标签,认为这些标签是不频繁的,不参与频繁模式树的建立;对于满足最小支持度的标签,按照全局支持度降序排序;一个标签的全局支持度被定义为扫描事务数据库D中包含该标签的记录所占的比例;(302)为了快速访问频繁模式树中的相同标签,在扫描事务数据库D的同时建立一个连接具有相同标签的结点的指针列表,每个列表元素包括标签项、该标签的全局支持度和指向频繁模式树中该项链表的表头的指针;(303)再次扫描过滤后的事务数据库D;创建频繁模式树根结点,将频繁模式树的结点定义为标签、频数、父结点和子结点集;然后将排序后的每个标签项插入频繁模式树中,并将用户的职业信息作为一个虚拟的标签加在末尾;如果某个标签项是第一次遇到,则创建新结点,并在指针列表中添加一个指向该结点的指针,否则按路径找到该标签对应的结点,修改结信息;(304)当所有标签加入频繁模式树后,建树过程结束。3.根据权利要求2所述基于频繁项目集的图片推荐方法,其特征在于,步骤(3)中获取频繁项目集的具体过程如下:(311)从频繁模式树头指针列表中的单个频繁标签开始,对于每一个标签,获得其对应的条件模式基,即该标签的前缀路径中所有的标签的集合;由于在树的结点定义中有父结点及指向该结点的指针,因此...

【专利技术属性】
技术研发人员:刘凡吕坦悦
申请(专利权)人:河海大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1