用于实现人工智能应用的处理装置和推荐内容的方法制造方法及图纸

技术编号:3610043 阅读:193 留言:0更新日期:2012-04-11 18:40
人工智能应用要求利用包括正和负样本的训练集。负样本是利用正样本对应于特征空间中占优的特征的分布来选择的。负样本应当与正样本共享样本空间中大体相同的占优特征值。这种训练集是相对于内容推荐器说明的,特别是电视节目推荐器。(*该技术在2022年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及要求具有正和负样本的训练集的人工智能应用,特别是推荐系统,更特别是用于电视的推荐系统。更具体而言,本专利技术涉及利用统计学上有效的技术为训练集选择负样本的应用。
技术介绍
2000年4月2日提交,在此引作参考的序列号为No.09/498,271的美国专利申请(US000018)披露了一种电视推荐系统。在该系统中,根据观看了的和没有观看的节目的模式进行推荐。当然,没有观看的节目必然比观看了的节目多。因此,开发出一种选择没有观看的节目的启发式。该启发式将根据每个观看了的节目选择一个没有观看的节目,所述没有观看的节目是从对应的观看了的节目所在的时间段以外的其它时间段中随机选取的。一般而言,许多人工智能应用具有由正和负样本构成的训练集。选择负样本的启发式需要比参照各个单独的正样本随机逐个选择负样本的原理有所改进。
技术实现思路
本专利技术的目的是改进用于为人工智能应用的训练集选择负样本的启发式。该目的通过如下方式得以实现,即对应于一组正样本选择一组负样本,而不是逐个选择。该目的还通过如下方式得以实现,即根据一个假设占优的特征对正样本组进行分析。然后从与正样本共享该特征的可能是非正的样本中选出第一部分负样本。该目的还通过如下方式得以实现,即节目的第二部分是从对应于上述特征的特征空间中的一个预定范围内的时间段选取的。该目的还通过如下方式得以实现,即没有任何负样本被选择一次以上。优选地,所述应用是如电视等内容的推荐器,其中正样本是所选择的内容,负样本是没有选择的内容。同样优选地,所述特征是广播时刻。其它目的和优点将在下文中更加清楚。附图简述下面参考附图,通过非限制性的举例说明本专利技术。附图说明图1示出对应于具体的观众,即用户H,如何利用均匀的随机采样选择负样本;图2示出对应于图1的正样本的柱状图;图3示出对应于图1的负样本的柱状图;图4与图1相似,但是对应于用户C;图5与图2相似,但是对应于用户C;图6与图3相似,但是对应于用户C;图7与图1相似,但是利用本专利技术选择负样本;图8与图4相似,但是利用本专利技术选择负样本;图9与图3相似,但是利用本专利技术选择负样本;图10与图6相似,但是利用本专利技术选择负样本;图11示出用户H的击中率作为假的正样本率(false positiverate)的函数;图12与图11相似,但是对应于用户C;图13示出实现本专利技术的硬件;图14示出根据本专利技术建立一个训练集的过程的流程图;图15示出一个表;图16示出一个表。优选实施例详述下面参考用于电视的推荐器说明本专利技术,但是它同样可以用于任何人工智能应用的训练集,包括用于其它类内容的推荐器。术语“节目”包括可能被推荐器推荐的任何其它类内容,包括音频、软件、和文本信息。术语“观看”或“观看过”包括任何类正样本选择,包括经历任何类内容,如听和读。对本专利技术的描述还基于这样的假设,即时间是区别观看过和没有观看的内容的主要特征;但是,其它占优的特征也可以用作为训练集选择负样本的参数。图13示出实现本专利技术的硬件。该硬件典型地包括显示器1、某种处理器2、通过某种连接3连接到该处理器的至少一个用户输入设备4;以及某种接收数据如电视节目或电子节目指南(“EPO”)数据的链接5。显示器1一般是电视屏幕,但也可以是其它类显示设备。处理器2可以是机顶盒、PC、或其它数据处理设备,只要具有足够的处理能力就行。用户输入设备4可以是遥控器,连接3可以是无线连接,如红外线连接。假如处理器是PC,用户输入设备通常至少应多于一个,如键盘和指点设备如鼠标。用户输入设备也可以是触敏显示器。与外部世界的链接5可以是天线、电缆、连到因特网的电话线、网络连接、或任何其它类数据链接。此外,链接5可以与许多不同类型的设备通讯,如远程处理器、外设、和/或存储器设备。通常至少应当有一个存储器设备6,如CD ROM驱动器、软盘驱动器、或任何其它类存储器设备。存储器设备6可以存储数据、软件、或同时存储该两种内容。也可以有其它未示出的外设,如声音识别系统、PC照相机、扬声器、和/或打印机。图1示出对应于具体的观众,即用户H,如何利用均匀的随机采样选择负样本。纵轴表示节目的时刻。横轴表示采样的序数。圆圈是观看过的节目,星号对应于没有观看的节目。可以看出,观看了的节目主要集中在傍晚的黄金时段,只有少数节目在一天中的其它时间观看,特别是每天清晨,大概是在观众离家去学校或上班之前。图2示出正样本,即用户H观看的节目,的基数与时间关系的柱壮图,对应于图1所示的圆圈数据。——关于图2、3、5、6、9和10,请注意,横轴的比例只是近似的。不应当认为图中的条严格对应于其下面所列的时间。图3示出利用均匀随机采样的负样本,即没有观看的节目的柱壮图。同样,绘出的是节目的基数与时间的关系。该数据对应于图1中的星号。图4中表示与图1相同的数据,但是对应于第二位用户,即用户C。为该用户所取的样本比为用户H所取的少。用户C有175个样本,而用户H有275个以上。图5与图2相似,但是对应于用户C。图6与图3相似,但是对应于用户C。图14示出根据本专利技术建立一个训练集的过程的流程图。该流程图的运行可以在处理器2上执行,或在任何与处理器2连接或通过例如链接5从处理器2接收数据的处理器上执行。类似地,上述人工智能应用本身,如内容推荐器,可以在处理器2上训练或运行,也可以在任何与处理器2连接或通过例如链接5从处理器2接收数据的处理器上训练或运行。在步骤1401,积累观看过的节目的对象总体到统计学上有意义的规模。在用户H和C的例子中,该对象总体的规模分别为275和175,但是,其它规模的对象总体也可以采用,只要它们在统计学上有意义。在步骤1402,确定观看过的节目关于时间的分布,并确定优选的时间段。该分布可以用柱壮图的形式表示,如图2或图5所示。在优选实施例中,选择了具有最多节目的5个时间段。但是,也可以选择较多或较少的优选时间段。可选地,用户所观看过的所有时间段都可以使用。在所举例子中,用户H的5个最优选时间段按顺序分别是21:00、20:00、19:00、23:00、和22:00,而用户C的5个最优选时间段按顺序分别是8:00、23:00、20:00、24:00、和10:00。然后,在步骤1403,在该用户的优选时间段中选择负样本的第一部分。在优选实施例中,该部分为50%。在步骤1404,可选地,从优选的一个或多个时间段附近的预定时间间隔选择负样本的第二部分。在优选实施例中,该第二部分将从紧邻单个最优选的时间段之前的一小时和之后的一小时中选择。如果省略步骤1404,那么所有负样本都将从优选时间段或从该用户观看过的所有时间段中选择。因此,当省略步骤1404时,在步骤1402利用用户用过的所有时间段的选项最有可能被选择。然后,在步骤1405,使得负样本集包括第一部分和任何第二部分。在优选实施例中,该负样本集实际上只是第一和第二部分。在步骤1406,利用正和负样本集对推荐器进行训练。图7示出与图1所示用于用户H的相同类型的图,但是该图中负样本是根据图1 4中的技术选择的。应当注意,根据时间,负样本基本上在正样本衰减的地方衰减。负样本中明显的单调曲线只是选择负样本的次序的人为结果。它们用不着按照任何特殊次序选择。图8示出与图4所示用于用户C的本文档来自技高网...

【技术保护点】
处理装置,用于实现人工智能应用,该人工智能应用要求使用具有正和负样本的训练集,该装置包括:至少一个存储器,用于存储数据和/或指令;至少一个处理器,用于利用所述至少一个存储器执行下列操作;识别并保持用于训练的正样本集;和根据该正样本集选择用于训练的负样本集。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:SVR古塔KP李JD沙费尔
申请(专利权)人:皇家菲利浦电子有限公司
类型:发明
国别省市:NL[荷兰]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术
  • 暂无相关专利