确定媒体项的集合中的视觉主题制造技术

技术编号:38043911 阅读:14 留言:0更新日期:2023-06-30 11:10
媒体应用基于来自媒体项的集合的图像或视频的像素来确定媒体项的集群,使得每个集群中的媒体项具有视觉相似性,其中媒体项的集合与用户账户相关联。媒体应用基于每个集群中具有阈值相似性值的范围内的视觉相似性的媒体项,从对应媒体项的集群中选择媒体的集群的子集。媒体应用使得显示包括媒体的集群的子集的用户界面。用户界面。用户界面。

【技术实现步骤摘要】
【国外来华专利技术】确定媒体项的集合中的视觉主题
[0001]相关申请的交叉引用
[0002]本申请要求2021年10月25日提交的标题为“Determining a Visual Theme in a Collection of Media Items(确定媒体项的集合中的视觉主题)”的美国专利申请No.17/509,767的优先权,它要求2021年5月11日提交的标题为“Determining a Visual Theme from Pixels in aCollection of Media Items(从媒体项的集合中的像素确定视觉主题)”的美国临时专利申请No.63/187,390以及2021年5月17日提交的标题为“Determining a Visual Theme from Pixels in a Collection of Media Items(从媒体项的集合中的像素确定视觉主题)”的美国临时专利申请No.63/189,658两者的优先权,其中的每一个的全部内容以其整体被并入本文中。

技术介绍

[0003]诸如智能手机或其他数码相机的设备的用户捕获大量照片和视频并将其存储在他们的图像库中。用户利用此类库查看他们的照片和视频,以回忆各种事件,诸如生日、婚礼、假期、旅行等。用户可能拥有大型图像库,其中有在很长一段时间内拍摄的数千张图像。
[0004]本文中提供的背景描述是为了一般性地呈现本公开的上下文的目的。当前提名的专利技术人的工作,在本
技术介绍
部分中描述的范围内,以及在提交时可能不属于现有技术的描述的方面,既不明示地也不暗示地被承认为相对于本公开的现有技术。

技术实现思路

[0005]一种计算机实现的方法包括:使用经训练的机器学习模型生成来自与用户账户相关联的媒体项的集合的媒体项的向量表示;基于媒体项的向量表示,确定媒体项的集群,使得每个集群中的媒体项具有视觉相似性,其中,媒体项对的向量表示之间的向量距离指示媒体项的视觉相似性,并且其中集群被选择使得集群内的每个媒体项对之间的向量距离在阈值视觉相似性值的范围之外;并且使得显示包括媒体项的集群的子集的用户界面。
[0006]在一些实施例中,每个媒体项具有相关联的时间戳,在预定时间段内捕获的媒体项与情节(episode)相关联,并且选择媒体项的集群的子集是基于对应相关联的时间戳的,使得媒体项的集群的子集中的对应媒体项满足时间多样性标准,该时间多样性标准从特定情节排除多于预定数量的对应媒体项。在一些实施例中,该方法还包括在选择媒体项的集群的子集之前,从媒体项的集合中排除与在禁止类别的列表中的类别相关联的媒体项。在一些实施例中,该方法还包括在确定媒体项的集群之前,排除与在禁止类别的列表中的类别对应的媒体项。在一些实施例中,每个媒体项与位置相关联并且响应于媒体的集群的子集包括多于预定数量的媒体项,选择媒体项的集群的子集是基于位置,以使得集群的子集满足位置多样性标准。在一些实施例中,媒体项的集群进一步基于与具有语义相似性的标签相关联的对应媒体项来确定。在一些实施例中,该方法还包括基于分析与用户账户相关联的用户关于媒体项执行积极动作的可能性,对媒体项的集群的子集中的每个媒体项进行评分,并且基于满足阈值分数的对应分数,选择媒体项的集群的子集中的媒体项。在一些实
施例中,该方法还包括接收来自用户的关于集群的子集的反馈并且基于该反馈修改媒体项的集群的子集的对应分数。在一些实施例中,其中反馈包括通过从用户界面移除媒体项的集群的子集中的一个或多个媒体项而指示的显式动作或通过查看媒体项的集群的子集中的对应媒体项或者共享媒体项的集群的子集中的对应媒体项中的一个或多个而指示的隐式动作。在一些实施例中,该方法还包括接收来自用户的、对媒体的集群的聚合子集的聚合反馈,将该聚合反馈提供给经训练的机器学习模型,其中经训练的机器学习模型的参数被更新,以及基于更新经训练的机器学习模型的参数修改集群的媒体项。在一些实施例中,该方法进一步包括进一步包括基于来自媒体项的集群的子集中的每个集群的特定媒体项包括与视觉相似性对应的最大数量的对象从来选择特定媒体项作为媒体项的集群的子集中的每个集群的封面照片。在一些实施例中,该方法还包括基于视觉相似性的类型和常用短语向媒体项的集群的子集中的每个集群添加标题。在一些实施例中,用户界面以预定间隔被显示。在一些实施例中,该方法还包括向与用户账户相关联的用户提供媒体项的集群的子集可用的通知,其中该通知包括媒体项的集群的子集中每个集群的对应标题。在一些实施例中:该方法还包括确定要在各个设备上执行以优化计算的计算并且基于要在各个设备上执行的计算在多个设备上实现经训练的机器学习模型。
[0007]在一些实施例中,一种方法包括:接收来自与用户账户相关联的媒体项的集合的媒体项作为对经训练的机器学习模型的输入;用经训练的机器学习模型生成媒体项的集群的输出图像嵌入(embedding),其中每个集群中的媒体项具有视觉相似性,并且与不相似的媒体项相比,具有视觉相似性的媒体项在向量空间中彼此更接近,使得划分向量空间生成媒体项的集群;基于每个集群中具有阈值视觉相似性值的范围内的视觉相似性的对应媒体项来选择媒体项的集群的子集;以及使得显示包括媒体项的集群的子集的用户界面。
[0008]在一些实施例中,在媒体项的集合被提供给经训练的机器学习模型之前,功能图像从媒体项的集合中被移除。在一些实施例中,经训练的机器学习模型用来自用户的反馈被训练,该反馈包括对媒体项集的反应或对媒体项集的标题的修改。
[0009]实施例可以还包括一种系统,其包括一个或多个处理器以及存储由一个或多个处理器执行的指令的存储器,该指令包括:基于来自媒体项的集合的图像或视频的像素,确定媒体项的集群,使得每个集群中的媒体项具有视觉相似性,其中媒体项的集合与用户账户相关联;基于每个集群中具有阈值视觉相似性值的范围内的视觉相似性的对应媒体项来选择媒体项的集群的子集;以及使得显示包括媒体项的集群的子集的用户界面。在一些实施例中,每个媒体项具有相关联的时间戳;在预定时间段内捕获的媒体项与情节相关联;以及选择媒体项的集群的子集是基于对应相关联的时间戳的,使得媒体项的集群的子集中的对应媒体项满足时间多样性标准,该时间多样性标准从特定情节中排除多于预定数量的对应媒体项。
[0010]实施例还可以包括一种非暂时性计算机可读介质,其包括存储在其上的指令,该指令当由一个或多个计算机执行时,使一个或多个计算机执行包括以下各项的操作:基于来自媒体项的集合的图像或视频的像素,确定媒体项的集群,使得每个集群中的媒体项具有视觉相似性,其中媒体项的集合与用户账户相关联;基于每个集群中具有阈值视觉相似性值的范围内的视觉相似性的对应媒体项来选择媒体项的集群的子集;以及使得显示包括媒体项的集群的子集的用户界面。
[0011]本说明书有利地描述了一种使用机器学习模型来识别相似图像(或其他媒体项)的集群而无需手动识别图像或手动提供图像(或其他媒体项)的类别的方式。以这种方式,可以提供用于对图像或其他媒体项进行分类的改进的方法,该方法例如可以提供分类来本文档来自技高网
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种计算机实现的方法,包括:使用经训练的机器学习模型生成来自与用户账户相关联的媒体项的集合的媒体项的向量表示;基于媒体项的所述向量表示,确定媒体项的集群,使得每个集群中的所述媒体项具有视觉相似性,其中,媒体项对的向量表示之间的向量距离指示所述媒体项的视觉相似性,并且其中所述集群被选择来使得所述集群内的每个媒体项对之间的向量距离在阈值视觉相似性值的范围之外;基于每个集群中具有在阈值视觉相似性值的范围内的视觉相似性的对应的媒体项来选择媒体项的所述集群的子集;以及使得显示用户界面,所述用户界面包括媒体项的所述集群的所述子集。2.根据权利要求1所述的方法,其中:每个媒体项具有相关联的时间戳;在预定时间段内捕获的媒体项与情节相关联;以及选择媒体项的所述集群的所述子集是基于对应的相关联的时间戳,以使得媒体项的所述集群的所述子集中的对应的媒体项满足时间多样性标准,所述时间多样性标准从特定情节中排除多于预定数量的对应的媒体项。3.根据权利要求1所述的方法,还包括:在选择媒体项的所述集群的所述子集之前,从媒体项的所述集合中排除与在禁止类别的列表中的类别相关联的媒体项。4.根据权利要求1所述的方法,还包括:在确定媒体项的所述集群之前,排除与在禁止类别的列表中的类别相对应的媒体项。5.根据权利要求1所述的方法,其中:每个媒体项与位置相关联;以及响应于媒体项的所述集群的所述子集包括多于预定数量的媒体项,选择媒体项的所述集群的所述子集是基于位置,以使得媒体项的所述集群的所述子集满足位置多样性标准。6.根据权利要求1所述的方法,其中,基于所述对应的媒体项与具有语义相似性的标签相关联来进一步确定媒体项的所述集群。7.根据权利要求1所述的方法,还包括:基于分析与所述用户账户相关联的用户关于所述媒体项执行积极动作的可能性,对媒体项的所述集群的所述子集中的每个媒体项进行评分;以及基于满足阈值分数的对应的分数,选择媒体项的所述集群的所述子集中的所述媒体项。8.根据权利要求7所述的方法,还包括:接收来自用户的反馈,所述反馈是关于媒体项的所述集群的所述子集中的媒体项中的一个或多个媒体项;以及基于所述反馈,修改媒体项的所述集群的所述子集中的所述一个或多个媒体项的对应的分数。9.根据权利要求8所述的方法,其中,所述反馈包括显式动作或者隐式动作,所述显式动作是通过从所述用户界面移除媒体项的所述集群的所述子集中的所述一个或多个媒体项来指示的,所述隐式动作是通过以下中的一个或多个而指示的:查看媒体项的所述集群
的所述子集中的对应的媒体项或者共享媒体项的所述集群的所述子集中的对应的媒体项。10.根据权利要求1所述的方法,还包括:接收来自用户的、对媒体项的集群的聚合子集的聚合反馈;向所述经训练的机器学习模型提供所述聚合反馈,其中更新所述经训练的机器学习模型的参数;以及基于更新所述经...

【专利技术属性】
技术研发人员:克里斯蒂娜
申请(专利权)人:谷歌有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1