内容检索设备和内容检索方法技术

技术编号:2820611 阅读:200 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供内容检索设备和内容检索方法。一种内容检索设备,具有:内容存储单元,其中存储了与一个或多个字符串相关的多个内容;词库存储单元,其中存储了词库,所述词库包括字符串之间的垂直关系信息;输入单元,字符串是通过所述输入单元输入的;提取单元,通过使用所述词库并且基于关联程度信息来提取与输入字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据所述字符串之间的垂直关系信息确定了所述数字值;以及检索单元,所述检索单元检索与相关字符串和输入的字符串相关的内容。

【技术实现步骤摘要】

本专利技术涉及对内容进行检索,尤其涉及对与输入的字符串相关 的内容进行检索的。
技术介绍
近年来,随着数字技术的发展,已经广泛开发了对大量数字内 容进行有效检索的技术。就这种技术而言,日本专利申请公开(JP-A) 2005-348071公开了一种产生电视广播节目等的设备。该设备检索包括输入关键词或与 输入关键词相关的相关关键词的内容,并且连同其优先级一起输出所 述内容。而且,JP-A 9-120401公开了一种方法,在该方法中,针对基于 大量句子而被进行语形学分析的词,来计算基于同现数据和出现频率 的词之间的语义距离。通过分级排列基于所述距离形成的组来构建词 库。Kotaro Nakayama、 Takahiro Hara、 禾卩Shojiro Nishio在DBSJ Letters, Vol. 5, No. 4, pp. 41-44, 2007发表的"Thesaurus Construction from Large-Scale Web Dictionaries "公开了 一种通过采掘诸如 Wikipedia之类的大规模网络词典来构建词库的方法,并且提出了限 制搜索距离和计算近似解的算法来作为对词之间的关联程度进行计 算的方法。在前述JP-A 2005-348071公开的技术中,不仅通过使用输入关 键词而且通过使用相关关键词来检索内容。如何构建用来获取相关关 键词的词典或词库是关键,但是jp-A 2005-348071中并未公开如何构建用来获取相关关键词的词典或词库这一点。而且,在前述JP-A 9-120401公开的技术中,这一点中要被解决的一个问题是必需在构建词库的时刻准备足够量的句子数据。另外, 在该技术中,仅仅通过建立正式同现来机械地产生分级结构。这样,传统技术存在以下问题由于没有充分准备作为字符串 存在的关键词,所以不能检索大范围的内容。而且,在前述文献"Thesaurus Construction from Large-Scale Web Dictionaries"公开的技术中,在计算多个说明之间的关联强度时,需 要复杂的矩阵计算,在该矩阵计算中,列元素的数量和行元素的数量 是说明的总数量。其中存在这样的问题当构建词库时,必需进行大 规模计算。
技术实现思路
考虑到上述缺点,本专利技术提供了一种内容检索设备和内容检索 方法,其中可通过使用词库来检索与字符串相关的大范围内容。为了实现上述目的,本专利技术的第一方面是一种内容检索设备,包括内容存储单元,其中存储了与一个或多个字符串相关的多个内容;词库存储单元,其中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系;输入单元,字符串是通过所述输入单元输入的;提取单 元,通过使用所述词库存储单元所存储的词库并且基于关联程度信息 来提取与通过所述输入单元输入的输入字符串相关的相关字符串,所 述关联程度信息通过数字值表达了包括在所述词库中的字符串之间 的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系 信息确定了所述数字值;以及检索单元,其从所述内容存储单元所存 储的内容中检索与由所述提取单元提取的相关字符串和输入的字符 串相关的内容。根据本专利技术的第一方面,在所述内容存储单元中存储了与一个 或多个字符串相关的多个内容。在所述词库存储单元中存储了词库, 所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基 于所述字符串的含义来确定所述垂直关系。字符串是通过所述输入单 元输入的。提取单元通过使用所述词库存储单元所存储的词库并且基 于关联程度信息来提取与通过所述输入单元输入的输入字符串相关 的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库 中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直 关系的垂直关系信息确定了所述数字值。检索单元从所述内容存储单 元所存储的内容中检索与由所述提取单元提取的相关字符串和输入 的字符串相关的内容。这样,可提供一种内容检索设备,所述内容检 索设备可以通过基于关联程度信息提取相关字符串来检索与字符串 相关的大范围内容,其中所述关联程度信息是由数字值表达的,所述 数字值是根据垂直关系信息而确定的。本专利技术的第一方面的内容检索设备可被构造为,还包括计算单 元,基于所述词库中的字符串之间的距离来计算所述关联程度信息, 其中,当所述提取单元提取出相关字符串时,所述提取单元提取了由 所述计算单元预先计算出的关联程度信息大于或等于预定值的相关 字符串。根据上述结构,消除了每次执行搜索时搜索词库和计算关联程 度的处理。因此,可极大縮短检索所需的处理时间。本专利技术的第一方面的内容检索设备还可包括获取单元(获取装置),用来获取字符串信息,所述字符串信息包括多个字符串和表达了所述多个字符串中的字符串之间的关系的关系信息;和词库构建单元,基于由所述获取单元获取的字符串信息,通过在所述词库中反映所述字符串信息来自动重建所述词库。所述获取单元可被构造为包括 上述输入单元。根据上述结构,可通过在所述词库中反映所述字符串来自动重 建所述词库。因此,可丰富所述词库中包括的字符串。在本专利技术的第一方面的内容检索设备中,所述字符串信息可包 括所属类别信息,所述所属类别信息包括所述多个字符串中的各个字 符串与所述各个字符串所属的类别彼此对应的信息、和使得所述类别 和所述类别所属的类别彼此对应的信息。根据上述结构,所述字符串信息可包括使得多个字符串中的各 个字符串和所述字符串所属的类别彼此对应的信息、和使得所述类别和所述类别所属的类别彼此对应的信息。在本专利技术的第一方面的内容检索设备中,可通过从所属类别信 息确定属于上位类别的第二字符串并且使得所述第二字符串成为第 一字符串的上位词,来自动重建所述词库,所述上位类别是作为所述 多个字符串中的一个字符串的第一字符串所属的类别所属的类别。根据上述结构,可从所述类别之间依存关系来构建所述词库中 的垂直关系。在本专利技术的第一方面的内容检索设备中,可通过从所属类别信 息确定属于下位类别的第三字符串并且使得所述第三字符串成为所 述第一字符串的下位词,来自动重建所述词库,所述下位类别是属于 所述第一字符串所属类别的类别。根据上述结构,可从所述类别之间依存关系来构建所述词库中 的垂直关系。在本专利技术的第一方面的内容检索设备中,所述字符串信息还可 包括作为与所述多个字符串中的各个字符串相关的信息的描述信息、 和基于与所述多个字符串中的第四字符串相关的描述信息来使所述 多个字符串中的第五字符串与所述第四字符串相关联的关联信息,并 且所述词库构建单元可通过使所述第五字符串成为既不是所述第四 字符串的上位词又不是所述第四字符串的下位词的并列词来自动重 建所述词库,其中在所述关联信息中所述第四字符串与所述第五字符 串相关联。根据上述结构,可通过使用与给定的第四字符串相关的描述信 息中所包括的字符串作为并列词来构建所述词库。本专利技术的第一方面的内容检索设备可被构造为还包括第二计算 单元,所述第二计算单元基于所述词库计算所述关联程度信息,其中, 从所述所属类别信息中,所述第二计算单元确定属于所述第二字符串 所属类别的类别,并且所述第二计算单元执行计算,从而所述类别的本文档来自技高网
...

【技术保护点】
一种内容检索设备,包括: 内容存储单元,其中存储了与一个或多个字符串相关的多个内容; 词库存储单元,其中存储了词库,所述词库包括表达了字符串之间的垂直关系的垂直关系信息,其中基于所述字符串的含义来确定所述垂直关系; 输入单元,字符串是通过所述输入单元输入的; 提取单元,通过使用所述词库存储单元所存储的词库并且基于关联程度信息来提取与通过所述输入单元输入的输入字符串相关的相关字符串,所述关联程度信息通过数字值表达了包括在所述词库中的字符串之间的关联程度,其中根据表达了所述字符串之间的垂直关系的垂直关系信息确定了所述数字值;以及 检索单元,所述检索单元从所述内容存储单元所存储的内容中检索与由所述提取单元提取的相关字符串和输入的字符串相关的内容。

【技术特征摘要】
...

【专利技术属性】
技术研发人员:大桥洋介原阳一
申请(专利权)人:富士胶片株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1