信息处理设备以及用于搜索内容的评价的方法和系统技术方案

技术编号:2821151 阅读:228 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供信息处理设备以及用于搜索内容评价的方法和系统。该信息处理设备包括:被配置为获取内容相关信息的获取部分;被配置为从内容相关信息中提取搜索关键字的关键字提取部分;被配置为通过因特网搜索具有网页的网站并获取关于这些网站的信息的站点搜索部分;被配置为从这些网站中选择前N个网站的第一站点选择部分;被配置为访问N个站点中的每一个以便从该N个网站中的每一个的网页中提取文章并选择该N个网站中的两个或多个作为种子站点的第二站点选择部分;以及被配置为从种子站点和链接到种子站点的下级网站中收集文章并从收集到的文章中提取内容的评价结果的评价结果获取部分。

【技术实现步骤摘要】

本专利技术涉及用于搜索内容例如广播节目内容或存储在封装介质 中的内容的评价的设备、方法和系统。
技术介绍
随着近来硬盘驱动器的容量的增加,能够记录如此大量的电视广 播节目内容以至于超过一天长度的记录和再现设备已经出现了。很多 这样的记录和再现设备都装备有基于用户登记的嗜好信息或关键字 自动选择电视广播节目内容并记录所选择的电视广播节目内容的特 征。因此,用户经常被迫去考虑要再现记录的大量电视广播节目内容 中的哪些内容。上述类型的记录再现设备的用户能够从记录的大量电视广播节 目内容中选择任意的记录的电视广播节目内容,并能够再现和观看所 选择的电视广播节目内容。但是,理想的情况是,当选择要再现的记 录的电视广播节目内容时,用户能够知道对记录的电视广播节目内容 中的每一个的评价。对记录的电视广播节目内容中的每一个的评价可 用作从大量电视广播节目内容中选择理想内容的基础。在因特网上,有大量网站,用户在上面写下其对各种主题的感想 或观点。人们已经提出了这样一种系统,该系统用于收集关于各种主 题的这种感想或观点,并且使用词素分析(morphological analysis )技术或语法(syntactic analysis)分析技术来分析这些感想或观点, 从而确定关于这些主题的评价(例如,参见日本专利公布No, 2003-248681、 2003-157255、 2003-157254和2003-157253 )。
技术实现思路
然而,在上面所列的文献中描述的系统没有把关于电视广播节目 内容的主题信息的特性考虑在内,而是处理各种主题的通用系统。因 此,为了确定评价,必须爬行通过(crawl through )巨大数量的类型 广泛的多种网站,以便从这些网站中收集数据并存储这些数据。因此, 服务器系统的规模相应地就必须很大。更具体来说,在因特网上有巨大数量的网站,在相关技术的上述 系统中,访问这些巨量网站中的每一个以l更从每一个网站的网页中收 集数据并存储这些数据,并且对这样存储的包含关于这些主题的感想 和观点的巨大数量的信息进行词素分析和句法分析,从而确定评价。 因此,服务器系统的规模不可避免地会非常大。由于需要超大规模的服务器系统,因此很难使个人用户拥有的个 人装置能够对内容(例如电视广播节目内容)的评价进行搜索。此外, 在相关技术中,逐个地访问巨大数量的网站,以便收集包含关于目标 主题(即,应当搜索关于它的评价的主题)的感想和观点,因此要经 过很长时间才能获得关于该评价的信息,即搜索结果。问题,并且提供使得在相对较短的时间和相对更小规模的结构下获得 内容的评价结果成为可能的设备、方法和系统。根据本专利技术的一个实施例,提供一种信息处理设备,该信息处理 设备包括获取部分;关键字提取部分;站点搜索(site search)部 分;第一站点选择部分;第二站点选择部分;和评价结果获取部分。 获取部分被配置为获取内容相关信息,该内容相关信息包含内容的标 题和描述该内容的内容的信息。关键字提取部分被配置为从由获取部 分获取的内容相关信息中提取搜索关键字。站点搜索部分被配置为通的网站,并获取关于作为搜索结果而被找到的多个网站的信息。第一 站点选择部分被配置为从作为由站点搜索部分执行的搜索的结果而被找到的多个网站中选择前N个网站,N为预定的大于l的整数。第 二站点选择部分被配置为访问由第一站点选择部分选择的N个网站 中的每一个以便从该N个网站中的每一个的网页中提取文章,并且选 择该N个网站中的两个或更多个作为种子站点(seed site),从每一 个种子站点提取的文章包含个数超过预定阀值的搜索关键字的例子。 评价结果获取部分被配置为从由第二站点选择部分选择的两个或更 多个种子站点和链接到这些种子站点的下级网站中收集文章,并从收 集到的文章中获取内容的评价结果。根据上述信息处理设备,关键字提取部分从要搜索其评价的内容 的内容相关信息中提取搜索关键字。然后,站点搜索部分(例如搜索 引擎)自动逐个地访问因特网上的网站以便从每一个网站的网页中收 集信息,并检测具有包含由关键字提取部分提取的搜索关键字的网页 的网站。然后,第 一站点选择部分从具有包含搜索关键字的网页的那些网 站中选择前N个网站。N为预定的大于l的整数。然后,第二站点选择部分访问由第一站点选择部分选择的N个 网站,以便从该N个网站中的每一个的网页中提取文章,并选择该N 个网站中的两个或更多个作为种子站点。从每一个种子站点中提取的 文章包含个数超过预定阀值的搜索关键字的例子。这里,种子站点是 指从其开始爬行通过链接到其上的较低级网站的网站。评价结果获取部分爬行通过由第二站点选择部分选择的种子站 点和链接到种子站点的下级网站(即,逐个地访问这些网站),以便 从每一个网页中收集文章。然后,评价结果获取部分对收集到的文章 进行词素分析和句法分析,例如,以便获取该内容的评价结果。根据该信息处理设备,由第 一站点选择部分和第二站点选择部分 在两个步骤中从作为搜索结果而被找到的网站中选择更小数量的网站,从该更小数量的网站的网页中收集用于获取评价结果的文章,并 且从这些收集到的文章中获得评价结果。因此,该信息处理设备具有 比相关技术中的那些设备更小规模的结构,但是能够在相对更小的时 间内获得评价结果。根据本专利技术的另一个实施例,提供一种信息处理设备,该信息处理设备包括获取部分;关键字提取部分;站点搜索请求部分;第一 站点选择部分;第二站点选择部分;和评价结果获取部分。获取部分 被配置为获取内容相关信息,该内容相关信息包含内容的标题和描述 该内容的内容的信息。关键字提取部分被配置为从由获取部分获取的 内容相关信息中提取搜索关键字。站点搜索请求部分被配置为请求因 特网上的搜索站点搜索具有包含由关键字提取部分提取的搜索关键 字的网页的网站,并获取关于作为搜索结果而被找到的多个网站的信 息。第一站点选择部分被配置为从作为由搜索站点执行的搜索的结果 而被找到的多个网站中选择前N个网站,N为预定的大于1的整数。 第二站点选择部分被配置为访问由第一站点选择部分选择的N个网 站中的每一个以便从该N个网站中的每一个的网页中提取文章,并且 选择该N个网站中的两个或更多个作为种子站点,从每一个种子站点 提取的文章包含个数超过预定阀值的搜索关键字的例子。评价结果获 取部分被配置为从由第二站点选择部分选择的两个或更多个种子站 点和链接到这些种子站点的下级网站中收集文章,并从收集到的文章 中获取内容的评价结果。与前面描述的信息处理设备不同,该信息处理设备没有站点搜索 部分。替代的是,该信息处理设备具有站点搜索请求部分。该站点搜 索请求部分请求因特网上的搜索站点对具有包含由关键字提取部分 提取的擻索关键字的网页的网站进行搜索,并获取关于作为搜喻结果 而被找到的多个网站的信息。于是,与前面描述的信息处理设备的情况也一样,由第一站点选 择部分和第二站点选择部分从作为搜索的结果而被找到的网站中选择更小数量的网站,并且使用所选择的更小数量的网站来获取评价结果。从自所述更小数量的网站收集的文章中获取评价信息。该信息处理设备没有站点搜索部分,并且,替代的是,该信息处 理设备请求因特网上的搜索站点执行搜索。因此,该信息处理设备本文档来自技高网...

【技术保护点】
一种信息处理设备,包括: 获取部分,该获取部分被配置为获取内容相关信息,该内容相关信息包含内容的标题和描述该内容的内容的信息; 关键字提取部分,该关键字提取部分被配置为从由所述获取部分获取的内容相关信息中提取搜索关键字; 站点搜索部分,该站点搜索部分被配置为:通过因特网搜索具有包含由所述关键字提取部分提取的搜索关键字的网页的网站,并获取关于作为搜索结果而被找到的多个网站的信息; 第一站点选择部分,该第一站点选择部分被配置为从作为由所述站点搜索部分执行的搜索的结果而被找到的多个网站中选择前N个网站,N为预定的大于1的整数; 第二站点选择部分,该第二站点选择部分被配置为:访问由所述第一站点选择部分选择的N个网站中的每一个,以便从该N个网站中的每一个的网页中提取文章;并且选择该N个网站中的两个或更多个作为种子站点,从每一个种子站点提取的文章包含个数超过预定阀值的搜索关键字的例子;以及 评价结果获取部分,该评价结果获取部分被配置为:从由所述第二站点选择部分选择的两个或更多个种子站点和链接到这些种子站点的下级网站中收集文章,并从收集到的文章中获取所述内容的评价结果。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:角川元辉
申请(专利权)人:索尼株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1