当前位置: 首页 > 专利查询>天津大学专利>正文

一种用户驱动的图像集合排序方法技术

技术编号:8022438 阅读:234 留言:0更新日期:2012-11-29 04:40
本发明专利技术属于网络图像搜索技术领域,涉及一种根据用户反馈筛选、排序图片的方法,包括以下步骤:统计用户在每张图像的浏览信息,包括浏览时间、下载次数和用户评分;利用以上信息加权后为已浏览图像评分并分类;提取出用户的偏好图像特征集进行训练,将利用不同特征组合的训练出的测试图片集标定结果与人工标定的结果进行比对,选定最适合此类图片集的特征集合,使图片集的展示更加符合用户偏好。本发明专利技术具有兼顾图像普适性和用户个人偏好的特点,既能够在图像搜索中提供总体的图像排序,又能为个体用户提供个性化搜索结果,具有良好的学习能力,能够根据反馈信息不断调整返回给用户的结果。

【技术实现步骤摘要】

本专利技术属于网络图片搜索
,特别涉及一种根据用户浏览与反馈数据筛选以及排序图片的方法。
技术介绍
在最近的几十年中,随着个人计算机以及网络的普及,通过网络搜索信息已经变成了人们获取信息的重要来源之一。其中,图片搜索是网络搜索的一个重要组成部分。一直以来,现有的图片搜索往往会给用户筛选出与需求不甚相符的结果。这是由于以下原因造成的第一,绝大部分为搜索结果排序的算法是以浏览量等基本信息为依据的,无法为用户 提供个性化的搜索结果。由于每个用户的需求存在着显著的差异,这种一般的算法注定会降低用户体验;第二,最近形成的关联反馈系统,虽然能够比较好的反映群体用户对搜索结果的评价,但是并未考虑到每个用户都是一个单独的个体,也就会有差异性的需要。因此,我们需要一种图片筛选及排序方法,以便为用户提供更贴近个人需求的结果。
技术实现思路
本专利技术针对现有图像搜索技术无法为用户提供更精确、更具个性化的搜索服务的问题,提出一种新的图片集合排序方法。本专利技术通过改进筛选及排序技术,使不同类型的用户都能够得到最大限度适合个人的搜索结果,减少用户重复搜索次数,提高用户搜索效率,提高用户对搜索的满意度。本专利技术的技术方案如下一种用户驱动的图片集合排序方法,包括下列步骤(I)根据用户在对某个关键字进行图像检索时检索到的图片集,统计用户的图像浏览信息,包括每张图片的浏览时间、下载次数以及用户评分;(2)在得到图像统计信息后,使用以下数学表达式为每张图片打分P = 60% D -I- 30% * —+ 10% * — -Vf 152其中,P代表单个图片的打分结果,D代表图片总下载次数,B代表图片总浏览时间,G代表所有用户对图片的平均评价等级,G>2. 5时,调整系数a =1 ;G<2. 5时,调整系数Ct =_10(3)根据评分结果的从高到低,将图片集里的图片划分为用户偏好图片子集和不符合用户偏好图片集两个子集,另外将用户未浏览过的同类图像构成的子集作为测试图片集;(4)分别对符合用户偏好图片集、不符合用户偏好图片集和测试图片集提取图像的三个主要特征边界特征、纹理特征和颜色特征,建立各个图片子集的特征矩阵,(5)在获得图片子集的特征矩阵后,首先针对三个单一特征对测试图片集里的图片进行SVM训练,得到判断测试图片集里的图像属于符合用户偏好或不符合用户偏好子集的分类器,进而得到认为符合用户偏好的图片;再将三个单一特征中的任意两个特征合并为一个特征,对测试图片集里图片进行SVM训练,得到认为符合用户偏好的图片;最后将三个单一特征特征矩阵合并为一个总的特征矩阵,对测试图片集里的图片进行SVM训练,得到认为符合用户偏好的图片;(6)对测试图片集里的每张图片都进行人工标定,确定每张图像实际上是否符合用户偏好;(7)将经过步骤(5)的不同特征组合的训练出的测试图片集标定结果与步骤(6)人工标定的结果进行比对,选定最适合此类图片集的特征集合;(8)为每一位有记录的用户建立一个账户,在该账户下记录其搜索偏好,当用户再次搜索同一关键字或相似关键字时,根据已有的用户偏好信息,利用步骤(7)选定的最适合此类图片集的特征集合进行训练,实现分类和重排序,提供给用户与其个人喜好相近的图片。 所述的用户驱动的图片集合排序方法,可以基于Sobel算子进行边界特征提取,采用hsv模型抽取图片的颜色特征,采用gabor滤波器进行纹理特征提取。本专利技术的分类模型的效用和性能共受到三个因素的影响样本规模,不同特征在不同种图像分类中影响的显著性,噪音。我们共进行了三组实验来探究这三种因素的影响。在实验中,我们使用以下四个统计数据来衡量这三种因素对训练结果影响程度。(I)命中率系统筛选出的图像数量占图像总量的比率。(2)查全率系统筛选出的真正符合用户偏好的图像数量占实际符合用户偏好的图像数量的比率。(3)查准率系统筛选出的真正符合用户偏好的图像数量占系统筛选出的图像数量的比率。(4)用户满意度在排序后的集合前100张图片中,用户实际满意的图像的比率。。在研究样本规模对模型性能影响时,我们在有噪声情况下对海滩和苹果两组图片集进行数量分别为30,60,80的测试,得到结果显示80为最优样本规模,此时得到的分类结果最准确。因此,我们认为样本规模的扩大能够使图片集更具一般性,提高分类精度。在研究不同特征在不同种图像分类中影响的显著性对模型性能影响时,我们对海滩和苹果图片集进行测试,得到的结果显示,苹果图片集分类最有效的特征集合是颜色和边界特征,而海滩图片集分类最有效的特征集合是颜色和纹理特征。这证明了对于不同类型的图片,具有不同最适特征集合。我们考虑到了这一点,能够为用户带来更加精确适合个人偏好的搜索结果。在研究噪声对模型的影响时,我们选择了容量均为80的海滩和苹果图像样本,并对两者均给予最适特征集合进行分类,得到结果显示分类的准确度在无噪声情况下要略优于有噪声情况,用户满意度也略好。但两者差别十分微小,在我们的可接受范围内。这说明了本专利技术模型具有良好的健壮性。综上所述。本专利技术兼具了很高的有分类效性和良好的抗噪健壮性。附图说明图I:模拟系统说明图;图2 :有噪音的海滩图片,测试规模80 ;图3 :有噪音的苹果图片,测试规模80 ;图4 :颜色特征提取在有无噪音情况下的对比(海滩样本);图5 :边界特征提取在有无噪音情况下的对比(苹果样本); 图6 :纹理特征提取在有无噪音情况下的对比(海滩)。具体实施例方式本专利技术最佳实施方案如下I.统计用户的图像浏览信息。由于现有的浏览器不能存储我们需要的用户浏览信息,为此本专利技术建立了一个提取用户信息的模拟系统,如图I所示。在该系统中,我们导入了使用其他浏览器检索到的图片集,并根据用户行为统计各种浏览信息,包括每张图片的浏览时间、下载次数以及用户评分。由于用户在浏览搜索结果时,通常会连续浏览结果图片集,因此我们认为单个图片的浏览次数对于图片筛选排序并不具有高度价值。而浏览时间和下载次数能够显著的体现一张图片对于用户的价值用户对于图片越满意,浏览时间会越长,也具有越大的可能性去下载图片。用户评分是最直接反映用户对图像满意程度的信息。在得到图像统计信息后,我们使用一下数学表达式为图片打分OP = 60% *D + 30% *— + 10%li —*(-!)" 152其中,P代表单个图片的打分结果,D代表图片总下载次数,B代表图片总浏览时间,G代表所有用户对图片的平均评价等级,G>2. 5时,调整系数a =1 ;G<2. 5时,调整系数Ct =_10该打分结果P具有两点作用。(I)利用P值从高到低对数据库中所有图像进行排序,得到一个一般性的排序结果。(2)对于某一位特定用户,他(她)显然只可能浏览到全部图像的一部分。利用P值对其已浏览过的图像进行排序,筛选出其中打分较高的部分作为符合其个人偏好的图片集合,打分较低的部分作为不符合个人偏好的图片集。在该用户未来搜索相同或相似关键字时,根据已有的个人偏好图像记录,对其未浏览过的同类图像进行训练,得到认为符合其偏好的图片集并返回给用户。2.在为用户匹配符合个人喜好图片的过程中,我们提取了图片的边界、纹理以及颜色特征。现有技术中,已经有很多种特征提取的方法,只要是能够有效地提取图片的边界本文档来自技高网...

【技术保护点】
一种用户驱动的图片集合排序方法,包括下列步骤:(1)根据用户在对某个关键字进行图像检索时检索到的图片集,统计用户的图像浏览信息,包括:每张图片的浏览时间、下载次数以及用户评分;(2)在得到图像统计信息后,使用以下数学表达式为每张图片打分:P=60%*D+30%*B15+10%*G2*(-1)α其中,P代表单个图片的打分结果,D代表图片总下载次数,B代表图片总浏览时间,G代表所有用户对图片的平均评价等级,G>2.5时,调整系数α=1;G<2.5时,调整系数α=?1。(3)根据评分结果的从高到低,将图片集里的图片划分为用户偏好图片子集和不符合用户偏好图片集两个子集,另外将用户未浏览过的同类图像构成的子集作为测试图片集;(4)分别对符合用户偏好图片集、不符合用户偏好图片集和测试图片集提取图像的三个主要特征:边界特征、纹理特征和颜色特征,建立各个图片子集的特征矩阵,(5)在获得图片子集的特征矩阵后,首先针对三个单一特征对测试图片集里的图片进行SVM训练,得到判断测试图片集里的图像属于符合用户偏好或不符合用户偏好子集的分类器,进而得到认为符合用户偏好的图片;再将三个单一特征中的任意两个特征合并为一个特征,对测试图片集里图片进行SVM训练,得到认为符合用户偏好的图片;最后将三个单一特征特征矩阵合并为一个总的特征矩阵,对测试图片集里的图片进行SVM训练,得到认为符合用户偏好的图片;(6)对测试图片集里的每张图片都进行人工标定,确定每张图像实际上是否符合用户偏好;(7)将经过步骤(5)的不同特征组合的训练出的测试图片集标定结果与步骤(6)人工标定的结果进行比对,选定最适合此类图片集的特征集合;(8)为每一位有记录的用户建立一个账户,在该账户下记录其搜索偏好,当用户再次搜索同一关键字或相似关键字时,根据已有的用户偏好信息,利用步骤(7)选定的最适合此类图片集的特征集合进行训练,实现分类和重排序,提供给用户与其个人喜好相近的图片。...

【技术特征摘要】

【专利技术属性】
技术研发人员:张怡赵天昊李文博莫志鹏
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1